3
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Databricksワークフローのファイル到着トリガーがGAになりました

Posted at

こちらの機能がGAになりました!

File arrival triggers in Databricks Workflows is GA

ファイル到着トリガーがすべてのクラウドプロバイダーでGAになりました。このリリースで、既存のUnity Catalog外部ロケーションのサポートに加えて、Unity Catalogのボリュームに新規ファイルが到着した際にDatabricksジョブを実行するためにファイル到着トリガーを活用できるようになります。新しいファイルが到着したときにジョブをトリガーするをご覧ください。

早速試します。

ボリュームの作成

/Volumes/takaakiyayoi_catalog/default/landing_zone/というボリュームを作成します。
Screenshot 2024-02-14 at 19.39.25.png

ノートブックの作成

このノートブックは、あとでジョブから呼び出します。Auto Loaderを用いて、新規到着ファイルのみを処理するようにします。checkpoint_pathloadの引数のパスも適宜ボリュームを指定しています。テーブルtakaakiyayoi_catalog.default.ingestedに書き込んでいます。

data_ingest
checkpoint_path = "/Volumes/takaakiyayoi_catalog/default/checkpoint"

(spark.readStream
  .format("cloudFiles") # Auto Loader
  .option("cloudFiles.format", "csv") # ファイルフォーマット
  .option("header", "true")
  .option("delimiter", ",")
  .option("cloudFiles.schemaLocation", checkpoint_path) # スキーマ格納場所
  .load("/Volumes/takaakiyayoi_catalog/default/landing_zone") # 読み込みボリュームパス
  .writeStream
  .option("checkpointLocation", checkpoint_path) # チェックポイント格納場所
  .trigger(availableNow=True) # 増分バッチ処理
  .toTable("takaakiyayoi_catalog.default.ingested")) # 書き込み先テーブル

ジョブの作成

タスクを作成し、上のノートブックを指定します。トリガータイプをファイル到着にし、上記ボリュームのパスを指定します。
Screenshot 2024-02-14 at 19.40.39.png
Screenshot 2024-02-14 at 19.41.17.png

これでファイル到着によって起動するジョブの準備ができました。

ファイルのアップロード

以下のようなCSVファイルを準備します。

001.csv
id,first,last
1, taka, yayoi
2, ume, yayoi
002.csv
id,first,last
3, yuki, yayoi
4, chi, yayoi

ボリュームに001.csvをアップロードします。
Screenshot 2024-02-14 at 20.06.43.png

少しするとジョブが起動します。
Screenshot 2024-02-14 at 19.45.08.png

ジョブが完了するとテーブルが作成されます。
Screenshot 2024-02-14 at 20.07.39.png
Screenshot 2024-02-14 at 20.07.48.png

次いで、002.csvをアップロードします。すると、再びジョブが起動します。

テーブルを確認すると、002.csvの内容が追記されていることがわかります。
Screenshot 2024-02-14 at 20.09.46.png

お手軽にファイル処理のパイプラインを起動できるファイル到着トリガー、ご活用ください!

はじめてのDatabricks

はじめてのDatabricks

Databricks無料トライアル

Databricks無料トライアル

3
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?