0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

新規ファイルが到着した際にDatabricksジョブを起動する

Last updated at Posted at 2023-02-26

Trigger jobs when new files arrive | Databricks on AWS [2023/2/22時点]の翻訳です。

本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

プレビュー
本機能はパブリックプレビューです。

Amazon S3やAzureストレージのような外部ロケーションに新規ファイルが到着した際に、Databricksジョブを起動するためにファイル到着トリガーを活用することができます。新規データが非定期のスケジュールで到着するため、スケジュールジョブが非効率的である場合にこの機能を活用することができます。

ファイル到着トリガーは毎分新規ファイルをチェックし、ストレージロケーションのファイル一覧に関連するクラウドプロバイダーのコスト以外の追加コストは発生しません。

注意
ファイル到着トリガーは最大10,000ファイルまでを格納する外部ロケーションでのみ動作します。これ以上のファイルを持つ外部ロケーションでは新規ファイル到着はモニタリングされません。

要件

ファイル到着トリガーを使用するには以下の要件が必要です。

ファイル到着トリガーの追加

ファイル到着トリガーを追加するには:

  1. サイドバーのWorkflowsをクリックします。
  2. Nameカラムでジョブ名をクリックします。
  3. 右側のJob detailsパネルでAdd triggerをクリックします。
  4. Trigger typeで、File arrivalを選択します。
  5. Storage locationで、監視する外部ロケーションあるいは外部ロケーションのサブディレクトリのURLを入力します。
  6. (オプション)高度なオプションを設定します:
    • Minimum time between triggers in seconds: 前回のジョブ実行が完了した際に起動を待つ最小時間です。この期間に到着したファイルは、待ち時間が過ぎた後にのみジョブ実行を起動します。ジョブ実行の作成頻度を制御するためにこの設定を使用します。
    • Wait after last change in seconds: ファイル到着後にジョブ実行を起動する際の待ち時間です。この期間に別のファイルが到着するとタイマーがリセットされます。バッチでファイルが到着し、すべてのファイルが到着した後にバッチ全体を処理する必要がある際にこの設定を使用することができます。
  7. 設定を検証するために、Test connectionをクリックします。
  8. Saveをクリックします。

ファイル到着トリガー失敗時の通知を受け取る

ファイル到着トリガーの検証に失敗した際に通知を受け取るには、ジョブ失敗時のメール通知、システム通知を設定します。Notificationsをご覧ください。

Databricks 無料トライアル

Databricks 無料トライアル

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?