概要
Fivetran の Managed Data Lakes Service を Azure Data Lake Storage Gen2 で構築する手順を紹介します。Azure Databricks のカタログにテーブルを登録する手順も含めております。
Fivetran のドキュメントに記載されているSetup instructions for ADLSの手順をベースにしているため合わせてご確認ください。
出所:Fivetran for Managed Data Lakes Service | Setup Guide
本記事は下記記事の一部です。
出所:フルマネージドなデータ連携:データ統合の自動化を実現する Fivetran の全貌 #fivetran - Qiita
事前準備
- Azure テナントの準備
- Azure Databricks 環境の構築
- Fivetran 環境の構築
手順
1. Create storage account
Azure Portal で Azure Data Lake Storage Gen2 用のストレージ アカウントを作成します。
2. Create ADLS container
先ほど作成したストレージ アカウント内にコンテナー(例:adls-container)を作成します。
3. Register an application and add a service principal
Microsoft Entra ID -> アプリの登録 -> + 新規登録を選択します。
名称(例:fivetran-service-principal)を入力し、登録を選択します。
作成したアプリのディレクトリ (テナント) IDとアプリケーション (クライアント) IDを控えておきます。
4. Create client secret
証明書とシークレット -> + 新しいクライアント シークレットを選択します。
説明に任意の値(例:adls_secret)を入力し、追加を選択します。
表示される値を必ず控えておきます。
5. Assign role to container
ストレージ アカウントに移動し、アクセス制御(IAM) -> ロールの割り当ての追加を選択します。
ロールタブでストレージ BLOB データ共同作成者を選択し、次へを選択します。
メンバータブで先ほど作成したサービス プリンシパルを選択し、レビューと割り当てを選択します。
そのままレビューと割り当てを選択します。
Role assignmentsにサービス プリンシパルが追加されていることを確認します。
6. (Optional) Set up Unity Catalog
Databricks で作成したストレージを外部ロケーションとして登録します。認証方法には Databricks アクセス コネクターを使用します。
Databricks で SQL Warehouse を作成し、その情報を控えます。
Databricks アクセス トークンを取得し、その値を控えます。
カタログ(例:fivetran_catalog)を作成します。
7. Complete Fivetran configuration
Fivetran で Destinations -> Add destination を選択します。
Managed data lakes -> Azure Data Lake Storage の Set up を選択します。
Destination name に任意の名称を入力し、Add を選択します。
Destination のセットアップ画面が表示されることを確認します。
セットアップ画面でストレージに関する情報を入力します。
続けてサービス プリンシパルに関する情報を入力します。
Consent URL 欄に記載されている URL をコピーします。
上記の URL を Azure にログインしているブラウザで開くとアクセス許可画面が表示されるようですが、環境によっては想定通りに動作しない場合があります。その際はコマンドラインで登録可能です。
コマンドラインでの登録手順は、以下の記事で整理されています。
上記の手順で登録したサービス プリンシパルに対して、ストレージへのストレージ BLOB データ共同作成者権限を付与します。
Destination のセットアップ画面で Update Databricks Unity Catalog のトグルをオンにし、Databricks の情報を入力します。
最後に Save for later を選択します。
8. Setup tests
作成した Destination を開き、Actions -> Test connection を選択します。
テストがパスすることを確認します。Fivetran Catalog Access Test が権限不足エラーとなる場合は、数分待ってから再度テストするとパスすることがあります。
データの同期確認
Fivetran に Sync の実施
Connections へ移動し、ソースタイプが Fivetran Platform のコネクションを選択します。
Start Initial Sync を選択します。
Initial sync が成功することを確認します。
Databricks にてデータを確認
指定したカタログ(例:fivetran_catalog)にデータが同期されていることを確認します。











































