More than 5 years have passed since last update.

BigQueryへCSVファイルをロードする際、どこまで気を利かせてくれるのか

Posted at 2018-08-11

はじめに

BigQueryへCSVファイルをロードする時、気になるのがCSVファイルのフォーマットやデータの表現形式。
BigQueryが受け付けてくれる形なら問題ないが、出力元システムによって特有の方言がありうる。
とりあえず思いついたものを自動検出ONでロードしてみて、どうなるか知っておきたい。

CSVファイル

sample.csv

col1,col2,col3,col4,col5,col6,col7,col8,col9,col10,col11
null,abc,文字列１,"カンマ,がある",12345,1.2345,20180101,2018-01-01,2018/01/01,2018-01-01 23:59:59,2018/01/01 23:59:59
,def,文字列２,"カンマ,がある",67890,6.7890,20180201,2018-02-01,2018/02/01,2018-01-01 23:59:59,2018/01/01 23:59:59

テーブル定義ファイル

なし。自動検出をONにする。

試しにロードしてみる

ロード失敗。

Error while reading data, error message: CSV table encountered too many errors, giving up. Rows: 1; errors: 1. Please look into the error stream for more details.

stackdriver loggingで確認してみる。

Could not parse '2018/01/01 23:59:59' as a timestamp. Required format is YYYY-MM-DD HH:MM[:SS[.SSSSSS]]; Could not parse '2018/01/01 23:59:59' as datetime for field timestamp_field_10 (position 10) starting at location 51

`YYYY/MM/DD HH:MM:SS`は取り込めない

2018/01/01 23:59:59は取り込めない模様。よくある形式だと思うので辛い。
該当列を消してリトライ。