Trigger jobs when new files arrive | Databricks on AWS [2023/2/22時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
プレビュー
本機能はパブリックプレビューです。
Amazon S3やAzureストレージのような外部ロケーションに新規ファイルが到着した際に、Databricksジョブを起動するためにファイル到着トリガーを活用することができます。新規データが非定期のスケジュールで到着するため、スケジュールジョブが非効率的である場合にこの機能を活用することができます。
ファイル到着トリガーは毎分新規ファイルをチェックし、ストレージロケーションのファイル一覧に関連するクラウドプロバイダーのコスト以外の追加コストは発生しません。
注意
ファイル到着トリガーは最大10,000ファイルまでを格納する外部ロケーションでのみ動作します。これ以上のファイルを持つ外部ロケーションでは新規ファイル到着はモニタリングされません。
要件
ファイル到着トリガーを使用するには以下の要件が必要です。
- ワークスペースではUnity Catalogが有効化されている必要があります。
- Unity Catalogメタストアに追加されている外部ロケーションを使用する必要があります。Unity Catalogにおける外部ロケーションとストレージ資格情報の管理をご覧ください。
- 外部ロケーションに対する
READ
権限、ジョブに対するCAN MANAGE
権限が必要です。ジョブの権限の詳細についてはJobs access controlをご覧ください。
ファイル到着トリガーの追加
ファイル到着トリガーを追加するには:
- サイドバーのWorkflowsをクリックします。
- Nameカラムでジョブ名をクリックします。
- 右側のJob detailsパネルでAdd triggerをクリックします。
- Trigger typeで、File arrivalを選択します。
- Storage locationで、監視する外部ロケーションあるいは外部ロケーションのサブディレクトリのURLを入力します。
- (オプション)高度なオプションを設定します:
- Minimum time between triggers in seconds: 前回のジョブ実行が完了した際に起動を待つ最小時間です。この期間に到着したファイルは、待ち時間が過ぎた後にのみジョブ実行を起動します。ジョブ実行の作成頻度を制御するためにこの設定を使用します。
- Wait after last change in seconds: ファイル到着後にジョブ実行を起動する際の待ち時間です。この期間に別のファイルが到着するとタイマーがリセットされます。バッチでファイルが到着し、すべてのファイルが到着した後にバッチ全体を処理する必要がある際にこの設定を使用することができます。
- 設定を検証するために、Test connectionをクリックします。
- Saveをクリックします。
ファイル到着トリガー失敗時の通知を受け取る
ファイル到着トリガーの検証に失敗した際に通知を受け取るには、ジョブ失敗時のメール通知、システム通知を設定します。Notificationsをご覧ください。