Azure Data Factory (ADF) と Azure Databricks の連携

Azure

Posted at 2025-01-08

1. ADF と Databricks の概要と位置づけ

1-1. Azure Data Factory (ADF) とは
Azure Data Factory は、Azure 上で提供されるクラウドネイティブなデータ統合サービスです。主に以下の役割を担います。

データパイプラインのオーケストレーション
複数のソースからデータを取り込み、必要な変換や加工を経て、ターゲットへロードする一連のフローを定義・管理
スケジューリング機能
時間やイベントに基づいてパイプラインを自動実行
監視と運用
ログやメトリクスを可視化し、パイプラインのステータスをモニタリング
1-2. Azure Databricks とは
Azure Databricks は、Apache Spark をベースとした高性能アナリティクスプラットフォームです。次のような特徴があります。

分散コンピューティング
大規模データセットの高速処理
ノートブックベースの開発環境
データサイエンスや機械学習、ETL のコードをブラウザ上で共有・管理
ワンクリックでのクラスター管理
自動スケーリングや停止でコスト最適化
1-3. 連携の意義
Data Factory と Databricks を組み合わせると、以下のようなメリットが得られます。

高度なデータ変換
Databricks の強力な Spark 処理で、高度な ETL や機械学習の前処理が可能。
シンプルなオーケストレーション
GUI ベースの ADF で Databricks ノートブックやジョブをシームレスに実行・管理。
スケーラブルでセキュアなアーキテクチャ
VNet やプライベートリンクを用いた安全な通信構成が可能。

2. ADF から Databricks を呼び出す典型的な流れ

Data Factory から Databricks を呼び出す場合、主に以下のステップで構成します。

Linked Service の作成

ADF の管理画面で「Linked Services」を開き、新規に「Azure Databricks」を追加
必要事項（Databricks ワークスペース URL、トークン、クラスター情報など）を入力
Dataset の作成（必要に応じて）

Databricks で処理するデータソース (Azure Storage や Azure SQL など) を ADF 側でも Dataset として作成
後続ステップで参照しやすいようにパラメーターを設定
Databricks Notebook Activity をパイプラインに追加

ADF パイプラインの「Activities」から「Databricks」を選択
「Notebook Activity」をドラッグ＆ドロップし、パラメーターやノートブックパスを指定
パラメーターやトリガーの設定

必要に応じて、Databricks ノートブックに ADF からパラメーターを渡す
ADF のスケジュールトリガーやイベントトリガーを設定し、自動実行を行う
モニタリングと運用

ADF の「Monitor」タブでジョブのステータスを確認
Databricks のクラスターイベントログも併せて確認し、失敗原因の特定やリソース使用状況をモニタリング

3. データ処理フローのアーキテクチャ例

以下は、Azure リソースを用いて構築する例です。

┌──────────┐ ┌─────────┐
│ データソース1 │ │ データソース2│
└──────────┘ └─────────┘
| |
| ADF (Copy) |
v v
┌─────────────────────────────────┐
│ Azure Data Lake Storage │
│ (Raw, Curated...) │
└─────────────────────────────────┘
|
(ADF Pipeline でトリガー)
|
v
┌───────────────────┐
│ Azure Databricks │
│ (Spark Notebook) │
└───────────────────┘
|
(精錬・集計・学習など)
|
v
┌────────────┐
│可視化・BIツール│
└────────────┘

ADF (Copy Activity) でデータを Data Lake に集約
データソース1・2 などから取り込み
ADF (Databricks Notebook Activity) でデータ変換・学習をトリガー
Databricks 上の Spark ノートブックで変換やフィルタリング、ML のトレーニングなどを実行
結果を BI やレポーティングツールに出力
Databricks で生成した結果を格納後、Power BI や Tableau などで可視化

4. セキュリティとネットワーク構成

4-1. プライベートリンクの活用
Azure では、パブリックネットワークを介さずに Private Link を利用して ADF と Databricks を接続できます。これにより、セキュアな通信経路を確保し、データの漏洩リスクを抑えます。

4-2. 仮想ネットワーク (VNet) の設定
Databricks ワークスペースを VNet Injected で作成し、同じ VNet 内に ADF を配置すると、同一ネットワーク内での通信が可能になります。
ネットワークセキュリティグループ (NSG) でポートや IP の制限を行い、不要な通信を遮断。
4-3. アクセスコントロール
Databricks では、Azure Active Directory と連携してユーザーやグループ単位でノートブック・クラスターへのアクセス権限を制御可能です。
ADF で用いる Databricks アクセストークンには有効期限やローテーションの仕組みを設け、必要最小限の権限付与に留めるのがベストプラクティスです。

5. 開発・運用のベストプラクティス

5-1. Databricks ノートブック開発
セル単位での開発・検証
Apache Spark のコードを小さな単位に分けて動作検証し、実行時間やエラーを早期に発見
パラメーター化
ADF からノートブックにパラメーターを渡せるようにすることで、異なる環境（開発・検証・本番）や用途で再利用しやすくする
Delta Lake や Parquet の活用
ストレージフォーマットを効率的に扱い、データ処理の高速化と信頼性向上を目指す
5-2. Databricks ジョブクラスターとオールパーパスクラスター
Databricks には大きく2種類のクラスターがあります。

ジョブクラスター (Job Cluster)
ジョブの実行開始時に自動で立ち上がり、ジョブ終了後に自動で削除される
コストを抑えたい場合や本番パイプライン向け
オールパーパスクラスター (All-purpose Cluster)
開発や対話型の分析で使用
長時間使うケースや複数ユーザーが同時にノートブックを操作する場合に適している
ジョブクラスターを活用すれば、無駄なクラスター稼働時間を短縮でき、コスト最適化が図れます。

5-3. コスト管理
自動停止 (Auto Termination) の設定
クラスターが一定時間操作されなかった場合に自動で停止するように設定
スケーリングポリシー (Auto Scaling)
ピーク時だけワーカー数を増やし、アイドル時は縮退させることでコスト削減
クラスターの種類・サイズ選定
ETL 時の処理量や処理時間に応じて、適切なワーカーサイズを選ぶ
5-4. 監視とログ収集
ADF 側のモニタリング
パイプラインの実行履歴、成功・失敗状況を「Monitor」タブで確認
活動 (Activity) ごとのログにより、どの処理で失敗したかを特定しやすい
Databricks 側のモニタリング
クラスターのイベントログ・Spark UI・ノートブックの実行ログを確認
ジョブの実行時間、シャッフル量、メモリ使用量などのメトリクスを把握

6. よくある課題と対策

6-1. パフォーマンスが思ったより出ない
シャッフルやデータスキューがボトルネックになることがある
データのパーティション分割方法を工夫し、分散度を高める
Spark のキャッシュ機能や Broadcast Join を活用
小さめのテーブルをブロードキャストし、大きなテーブルとの結合を効率化
6-2. データスキーマ変更に伴うエラー
新たなカラムが追加されるなどでスキーマ変更が発生すると、ETL が失敗するケースがある
Schema Evolution や Auto Loader (Databricks の機能) を活用し、スキーマ変更を自動検知・処理する
6-3. 大量データのコストと処理時間
増大するデータに対応しようと、クラスターを大きくしすぎるとコスト増に繋がる
並列度 (Partitioning) を適切に設定し、オーバースペックなクラスター構成を回避
Delta Lake を使うことで、アップサート (MERGE) やクイックロールバック等を効率的に実行

7. 具体的なユースケース

ETL パイプライン構築

複数のオンプレミス・クラウドソースから ADF で定期的にデータ取り込み
Databricks ノートブックを使って、重複排除・データクレンジング・集計を行い、テーブルに書き込み
機械学習パイプライン

ADF が定期実行トリガーとして Databricks で学習ジョブを実行
学習済みモデルを MLflow で管理し、モデルの精度をモニタリングしながら自動デプロイ
カスタマー 360 分析

顧客データを中心に、取引データやログデータを Data Lake に集約
Databricks で加工・集計し、Power BI などでセグメンテーション分析やレコメンデーション機能を提供

8. まとめ

Azure Data Factory と Azure Databricks は、それぞれ異なる強みをもったデータプラットフォームですが、組み合わせることで以下のメリットが得られます。

大規模データの高度な処理: Spark ベースの Databricks による並列・分散処理
GUI での簡易オーケストレーション: ADF を使ったノーコード／ローコードライクなパイプライン構築
コスト効率とセキュアなアーキテクチャ: Private Link やジョブクラスターなどの機能活用で最適化
運用面では、パフォーマンスチューニング・セキュリティ・コスト管理・モニタリングがポイントとなります。今回紹介したベストプラクティスやユースケースを参考に、自組織の要件に合わせたパイプラインとアーキテクチャを構築していただければ幸いです。

本コラムが、Azure Data Factory と Databricks の連携をスムーズに進める一助となることを願っています。ぜひ、最適な構成を模索しながら、大規模データの活用とビジネス成果の創出を進めてみてください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up