概要
Fivetran の Managed Data Lakes Service を Azure Data Lake Storage Gen2 で構築する手順を紹介します。Azure Databricks のカタログにテーブルを登録する手順も含めております。
Fivetran のドキュメントに記載されているSetup instructions for ADLS
の手順をベースにしているため合わせてご確認ください。
出所:Fivetran for Managed Data Lakes Service | Setup Guide
本記事は下記記事の一部です。
出所:フルマネージドなデータ連携:データ統合の自動化を実現する Fivetran の全貌 #fivetran - Qiita
事前準備
- Azure テナントの準備
- Azure Databricks 環境の構築
- Fivetran 環境の構築
手順
1. Create storage account
Azure Portal で Azure Data Lake Storage Gen2 用のストレージ アカウントを作成します。
2. Create ADLS container
先ほど作成したストレージ アカウント内にコンテナー(例:adls-container
)を作成します。
3. Register an application and add a service principal
Microsoft Entra ID
-> アプリの登録
-> + 新規登録
を選択します。
名称(例:fivetran-service-principal
)を入力し、登録
を選択します。
作成したアプリのディレクトリ (テナント) ID
とアプリケーション (クライアント) ID
を控えておきます。
4. Create client secret
証明書とシークレット
-> + 新しいクライアント シークレット
を選択します。
説明
に任意の値(例:adls_secret
)を入力し、追加
を選択します。
表示される値
を必ず控えておきます。
5. Assign role to container
ストレージ アカウントに移動し、アクセス制御(IAM)
-> ロールの割り当ての追加
を選択します。
ロール
タブでストレージ BLOB データ共同作成者
を選択し、次へ
を選択します。
メンバー
タブで先ほど作成したサービス プリンシパルを選択し、レビューと割り当て
を選択します。
そのままレビューと割り当て
を選択します。
Role assignments
にサービス プリンシパルが追加されていることを確認します。
6. (Optional) Set up Unity Catalog
Databricks で作成したストレージを外部ロケーションとして登録します。認証方法には Databricks アクセス コネクターを使用します。
Databricks で SQL Warehouse を作成し、その情報を控えます。
Databricks アクセス トークンを取得し、その値を控えます。
カタログ(例:fivetran_catalog
)を作成します。
7. Complete Fivetran configuration
Fivetran で Destinations
-> Add destination
を選択します。
Managed data lakes
-> Azure Data Lake Storage
の Set up
を選択します。
Destination name
に任意の名称を入力し、Add
を選択します。
Destination のセットアップ画面が表示されることを確認します。
セットアップ画面でストレージに関する情報を入力します。
続けてサービス プリンシパルに関する情報を入力します。
Consent URL
欄に記載されている URL
をコピーします。
上記の URL を Azure にログインしているブラウザで開くとアクセス許可画面が表示されるようですが、環境によっては想定通りに動作しない場合があります。その際はコマンドラインで登録可能です。
コマンドラインでの登録手順は、以下の記事で整理されています。
上記の手順で登録したサービス プリンシパルに対して、ストレージへのストレージ BLOB データ共同作成者
権限を付与します。
Destination のセットアップ画面で Update Databricks Unity Catalog
のトグルをオンにし、Databricks の情報を入力します。
最後に Save for later
を選択します。
8. Setup tests
作成した Destination を開き、Actions
-> Test connection
を選択します。
テストがパスすることを確認します。Fivetran Catalog Access Test
が権限不足エラーとなる場合は、数分待ってから再度テストするとパスすることがあります。
データの同期確認
Fivetran に Sync の実施
Connections
へ移動し、ソースタイプが Fivetran Platform
のコネクションを選択します。
Start Initial Sync
を選択します。
Initial sync が成功することを確認します。
Databricks にてデータを確認
指定したカタログ(例:fivetran_catalog
)にデータが同期されていることを確認します。