はじめに
今回は
- Databricks で作成したテーブルをFabric で利用する
-
Fabric で作成したテーブルをDatabricksで利用する
というユースケースを実施するための設定方法について具体的に紹介します。
この記事は4部構成です
1. 相互運用性の概要・目的
2.hubストレージの具体的な設定方法(本記事)
3. Fabricで作成したテーブルをDatabricksで利用する
4.Databricksで作成したテーブルをFabricで利用する
habとなるAzure Data Lake Gen2(ASLS2)を用意する
①Azureポータルからhubとなるストレージアカウントをデプロイ
階層構造の名前は有効にしてください
②'hub'というコンテナを作成した後、'ext'というディレクトリを作成
Fabricとhubストレージを連携させる
①レイクハウスを作成
Lakehouseスキーマ(パブリックプレビュー)は有効にしてください
②レイクハウスの新しいスキーマショートカットでhubストレージを指定する
レイクハウスの[Tables]の3点リーダーから[新しいスキーマショートカット]を選択
Databricksとhubストレージを連携させる
①AzureポータルからAzure Databricks用のアクセスコネクタを作成する
Unity Catalog で Azure マネージド ID を使用してストレージにアクセスするの
「ステップ 1: Azure Databricks 用のアクセス コネクタを作成する」の「システム割り当てマネージド ID を使用する」の手順を実施する
②Azureポータルからコネクタにhubストレージへのアクセスを許可する
Unity Catalog で Azure マネージド ID を使用してストレージにアクセスするの「ステップ 2:マネージド ID にストレージ アカウントへのアクセスを許可する」の手順を実施する
③Databricksから資格情報を作成する
Databricksにログインし、[カタログ] > [+] > [資格情報を追加する]の順にクリック
新規のストレージ資格情報を追加する
入力値 | |
---|---|
ストレージ資格情報 or サービス資格情報 | ストレージ資格情報 |
資格情報名 | 任意の名前 |
アクセスコネクターID | ①で作成したコネクタのリソースID(Azureポータルから確認可能) |
④Databricksから外部ロケーションを追加する
Databricksにログインし、[カタログ] > [+] > [外部ロケーションを追加]の順にクリック
新しい外部ロケーションを作成する
入力値 | |
---|---|
外部ロケーション名 | 任意の名前 |
URL | abfss://ディレクトリ名(今回はhub)@ストレージアカウント名.dfs.windows.net |
ストレージ資格情報 | ③で作成した資格情報を選択 |
URLの入力値について
本記事「Fabricとhubストレージを連携させる」の②で使用したストレージアカウントの [エンドポイント] と同様
手順や必要な権限の参考
クラウド ストレージを Azure Databricks に接続するための外部の場所を作成する
⑤Databricksからカタログ、スキーマを新規作成
Databricksにログインし、[カタログ] > [+] > [外部ロケーションを追加]の順にクリック
新規カタログを作成する
入力値 | |
---|---|
カタログ名 | 任意の名前 |
タイプ | Standard |
ストレージの場所 | ④で作成した外部ロケーションを選択 |
新規スキーマを作成する
入力値 | |
---|---|
スキーマ名 | 任意の名前 |
ストレージの場所 | 空欄 |
カタログやスキーマのストレージの場所
スキーマのストレージの場所を空欄にするとカタログで指定したストレージが設定されます。Unity Catalogのマネージドストレージの仕組みについては下記を参照ください。
Unity Catalog のマネージド ストレージの場所を指定する
おわりに
これで準備は整いました。
次から実際にテーブルの相互互換性を実施しましょう!
▽次の記事
▽前の記事