注目の投稿

【kepler.gl】コロナ対策による人流の変化も地図上に可視化(各種メディアで報道)

kepler.glのサイト画面 kepler.glを使ってコロナ対策の効果を分析したところ、テレビ、新聞、ネットのメディアから問い合わせや報道依頼が殺到。今も、土日返上で都内や全国の人流変化を分析しています。この記事では人流変化の可視化に便利なkepler.glにつ...

2016年10月28日金曜日

【トレジャーデータ】先頭のバックスペース(\b)を除去(regexp_replace)

TDに溜まっているデータから記事別UUを集計しgs(google spreadsheet)にデータをアップロードしたところ下記のエラーが出てしまった。

 An invalid XML character (Unicode: 0x8) was found in the value of attribute "inputValue" and element is "gs:cell"

 結論から言うと、記事タイトルの先頭にバックスペースが紛れ込んでたレコードが一部あり、これが原因でエラーが出ていた(原因解明にTDのサポートが大変参考になった!)。

修正部分抜粋↓

) SELECT
--  yesterday.title, --記事タイトルをそのままセレクトすると\bが紛れているのでエラー
--  ltrim(yesterday.title), --空白除去。当初は先頭文字の空白が原因かと考えたが違っていた
  regexp_replace(yesterday.title, '[\b]') as title, --これで成功


メモ
  • regexp_replace(column, '[\b]') --バックスペースを除去
  • regexp_like(column,'^[\b]') --バックスペースがあるレコードを特定


本件で参考になるサイト


てか、そもそも何で記事タイトルにバックスペースが紛れ込んでいるんだろう??


0 件のコメント :

コメントを投稿

注: コメントを投稿できるのは、このブログのメンバーだけです。