LoginSignup
8
4

More than 5 years have passed since last update.

Embulkについて色々調べたことの俺得リンク集

Last updated at Posted at 2017-04-11

過去に色々Embulkについて調べてgistなどに書き散らかしてた記事のリンク集です。
どこに書いたかわからなくなってしまったので、、、
将来FAQみたいなものになるといいな。

書いてあることについて詳しく知りたい方は、私に(hiroysato)にお問い合わせください。

JSONデータ中の時刻欄に""がありnullとしたい。

{ "time":"2017-02-22", "name":"Alice" }
{ "time":"", "name":"Bob" }

こんなデータの2番目のデータを時刻(時刻なし)としてパースしたい。

回答: フィルタで処理

jsonはnullは通常{ "time": }のように書くため、jsonlパーサーでは上記データを時刻として取り扱うことはできません。

次のプラグインを組み合わせると""を時刻なしとして扱うことができます。

PostgreSQLのuuid型を利用したい。

column_optionsを使いましょう

時刻のフォーマットが複数あるのをパースしたい。

embulk-filter-timestamp_format を使いましょう。

複雑なJSONデータを利用したい。

回答

embulk-parser-jsonpathとembulk-filter-expand_jsonを組み合わせると良いと思います。

runはうまく動くのにPreviewは失敗する

これはguessやpreviewが最初のファイルの32KBしか読まないのが原因です。
こちらの機能で将来PreviewやGuessのサイズを指定できるようになります。

CSVパーサのnull_stringの使い方がよくわからない。

公式ドキュメントに表を書きました。CSV parser plugin

embulk selfupdateってembulk実行中にアップデートしても大丈夫?

embulk-input-postgresqlってviewは読めるの?

読めます。

type: fileで、path_prefixがシンボリックリンクだとエラーになる。

現在(0.8.18)はそのような動作です。これがマージされたら直ります。

type: renameのcolumnsは非推奨?

embulk-filter-timestamp_format

8
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
8
4