ワークフローツールであるDigdagとApache AirflowのGCP向けに提供されているオペレータについてざっくりまとめてみた。
Digdag
今のところGCSとBigQueryに対応
https://docs.digdag.io/operators.html
GCS
CSにファイルが置かれるのを待って、置かれたことをトリガーにできる
BigQuery
- クエリ実行
- データセットやテーブルの管理(作成や削除など)
- BigQueryからのデータエクスポート
- BigQueryへのデータロード
Airflow
GCS, BigQuery, Dataflow, Dataproc, DataStoreをサポート。
####GCS
- GCSからのファイルダウンロード
- GCSからBigQueryへのファイルロード
BigQuery
- クエリ実行
- テーブルコピー
- BigQueryからGCSへのエクスポート
- クエリ実行した結果のチェック
Dataflow
- Dataflowジョブ(Java)の起動
Dataproc
- Pigクエリジョブのキック
- Hiveクエリジョブのキック
- SparkSQLジョブのキック
- Sparkジョブのキック
- Hadoopジョブのキック
- PySparkジョブのキック
#まとめ
DigdagよりもAirflowの方がGCP用に用意されているオペレータが多いが、個人的にはDigdagの方がシンプルに記述できるので好みである。ただAirflowはUIが見やすかったりして便利そうなので、用途に合わせて使い分けするのがよさそうである。