はじめに
Azure Data Factory(以下、ADF)ではスケジュールでの実行と、Blob StorageにデータがCreate(or Delete)された際に実行するような、2種類のTriggerを作成可能です。
Azure Data Factory でのパイプラインの実行とトリガー
本記事ではEvent Triggerを利用する際に注意が必要だったポイントについて備忘録的にまとめます。
Event Trigger
Blob Storage上にある文字列あるいはパスにファイルがあがった際にパイプラインを実行するトリガーです。
イベントに応答してパイプラインを実行するトリガーを作成する
注意点
非常に便利なトリガーですが、複数のファイルが一気にupされた場合に注意点があります。
既定の設定ですと、順次キューに入るような形ではなく、並列でトリガーが作動し、パイプライン処理が並列実行されます。
そのため、時間のかかるファイルが紛れ込んだ場合などに、ファイルの上がった順に処理されないというケースが発生します。
対策
パイプライン自体の並列度を下げることで、順次実行される形を構成することが可能です。
トリガー自体はどんどん検知しますが、パイプラインが並列実行することを許されていないため、キューのような状態が実現できます。
設定方法
トリガーと関連付けられているパイプラインを開き、[General] タブ配下の [Concurrency] を
“1” に設定することで、順次実行のパイプラインとして設定できます。
まとめ
標準で並列実行がサポートされているので、本来はうれしい機能ですが、イベント駆動型のデータ連携を考える際には注意点があるというお話でした。