More than 1 year has passed since last update.

Databricksにおけるデータパイプラインとオーケストレーション

Last updated at 2024-04-27Posted at 2024-04-27

Databricksにおけるデータの取り込み、ETL、ジョブのオーケストレーションをカバーします。

典型的なデータパイプライン

Databricksに限らず、データ分析のためのデータを準備するためには生データからスタートし、クレンジングを経て、BIや機械学習に用いるデータを生成するパイプラインを構築するのが一般的です。これはメダリオンアーキテクチャと呼ばれるものです。

しかし、生データを準備する時点からいくつかの課題に遭遇することになります。

ランディングゾーンからブロンズテーブルを準備する際の課題

間違っていくつかのファイルをスキップしてしまう → データの欠損
間違って以前のファイルを取り込んでしまう → 重複し、エラーを含むBIやレポートを作り出すことになってしまう
DIYのファイル追跡 / 一覧はスケールせず、コスト効率が悪い
スキーマの変更 / 問題 → ジョブの失敗
スキーマの変更 / 問題 → ファイルの損失、破損 (有害!)

Auto Loaderによるデータ取り込み

DatabricksのAuto Loaderを用いることで、スケーラブルなexactly-onceのデータ取り込みを実現し、上記の課題を解決します。

新規データファイルがクラウドストレージに到着するとインクリメンタルかつ効率的に処理します。
- ファイル通知モードによってイベント駆動の取り込みを実現(あなたの代わりに自動でEvent Grid / Amazon SNS + Azure Queue Storage / Amazon SQSをセットアップします)
到着ファイルのスキーマを自動で推定、あるいはスキーマヒントで既知の情報を提示
自動のスキーマ進化
レスキューデータ列 - 決してデータを失いません

Python、SQLで利用することができます。PySparkの場合、formatでcloudFilesを指定します。

df = spark
 .readStream
 .format("cloudFiles")
 .option("cloudFiles.format", "json")
 .load("abfss://…" or "s3://")
 .<apply your transformations>
 .writeStream
 .option("checkpointLocation","/chk/path")
 .start("/out/path")

大量のデータが流入する場合にも、複数のジョブを起動することで柔軟に対応することができます。

Delta Live Tablesによるデータパイプライン開発

データパイプラインの開発、運用においては様々な課題があり、それらを解決するために上述のAuto Loaderや、ここで説明するDelta Live Tables(DLT)が提供されています。

Delta Live Tablesでは、どのようにデータを処理するのかを記述するのではなく、期待するデータを宣言することで、何のデータが必要なのかにフォーカスすることができます。また、エラーハンドリング、自動テスト、オートスケーリングなどの機能を提供しているので、データエンジニアはデータパイプラインのロジック開発に注力することができます。