0
0

Azure Databricks における Unity Catalog と Spark Config によるAzure Storageへの認証優先度の検証

Last updated at Posted at 2024-02-08

概要

Azure Databricksを使用する際に、Azure Storageへの認証方法として、Unity Catalogの外部ロケーションによる認証とSpark Config(ストレージアカウントキー)による認証のどちらが優先されるかを検証しました。その結果、Unity Catalogの外部ロケーションによる認証が優先されることが確認できました。

具体的な検証方法としては、下記表に示す2つの異なるアカウントを用意し、それぞれで以下の手順を実行しました。Unity Catalogの外部ロケーションを作成したところ、Spark Config(ストレージアカウントキー)による認証が行えず、エラーが発生しました。しかし、Unity Catalogの外部ロケーションを削除すると、再びSpark Config(ストレージアカウントキー)による認証が可能になりました。これらの結果から、Unity Catalogの外部ロケーションによる認証が優先されると結論付けました。

# アカウント 概要
1 管理者アカウント Unity Catalog 、および、ワークスペースの管理者であるユーザーアカウント
2 ユーザーアカウント ワークスペースの管理者であるユーザーアカウント

ドキュメントにて、本記事に関する記載が次のようにあります。下記の記載内容を正確に理解することは困難であり、私も関連するリンクの提示を受けて紐づけて理解することができました。

Unity Catalog では、ファイルシステム設定のクラスター構成は考慮されません。 つまり、Unity Catalog を使用してデータにアクセスする場合、クラウド オブジェクト ストレージを使用してカスタム動作を構成するための Hadoop ファイルシステム設定は機能しません。

image.png

引用元:DBFS と Unity Catalog のベスト プラクティス - Azure Databricks | Microsoft Learn

本仕様による注意すべきケースとしては、Spark Config(ストレージアカウントキー)による認証からUnity Catalogの外部ロケーションによる認証へ切り替えるケースです。すべてのプログラムにて認証方法を切り替える必要があり、Spark Config(ストレージアカウントキー)による認証が残っていた場合にそのプログラムがエラーとなります。

本記事の前提条件として、Azure DatabricksとAzure Storage(階層型名前空間が有効)のリソースが既に構築されており、Azure Storageにはqiitaという名前のコンテナが作成され、その中にtest.txtというファイルが配置されています。

事前準備

Databricks アクセスコネクターに対してストレージへの ストレージ BLOB データ共同作成者権限を付与

image.png

管理者アカウントにて Databricks シークレットに Azure Storege のアクセスキーを登録

Databricks SDK にて WorkspaceClient をインスタンス化します。

%pip install databricks-sdk --upgrade --q
dbutils.library.restartPython()
from databricks.sdk import WorkspaceClient

w = WorkspaceClient()

image.png

Databricks シークレットのスコープを作成します。

# scope 名をセット
scope_name = 'qiita'

try:
    w.secrets.create_scope(scope=scope_name)
except DatabricksError:
    print(f"Scope `{scope_name}` already exists!")

# Scoep を確認
scopes = w.secrets.list_scopes()
 
for scope in scopes:
    if scope.name == scope_name:
        print(scope.as_dict())

image.png

Databricks シークレットのシークレットを登録します。

# シークレットの項目名と値をセット
scope_key_and_values = {
    "AccessKey": "",  # Azure Storage のアクセスキーをセット 
}
# シークレットを登録
for key,value in scope_key_and_values.items():
    w.secrets.put_secret(
        scope=scope_name,
        key=key,
        string_value=value,
    )

# シークレットのリストを表示
scrts = w.secrets.list_secrets(scope=scope_name)
print(scrts)

image.png

管理者アカウントにて Azure Storege に対する接続確認

storage_account_name = "" # Azure Storage アカウント名をセット
access_key = dbutils.secrets.get("qiita", "AccessKey")

spark.conf.set(
    f"fs.azure.account.key.{storage_account_name}.dfs.core.windows.net",
    access_key,
)

dbutils.fs.ls("abfss://qiita@qiitastoragetest001.dfs.core.windows.net/")

image.png

検証コードと実行結果

1. ユーザーアカウントにて Azure Storege に対して ストレージアカウントキーにて接続確認

storage_account_name = "qiitastoragetest001" # Azure Storage アカウント名をセット
access_key = dbutils.secrets.get("qiita", "AccessKey")

spark.conf.set(
    f"fs.azure.account.key.{storage_account_name}.dfs.core.windows.net",
    access_key,
)

dbutils.fs.ls("abfss://qiita@qiitastoragetest001.dfs.core.windows.net/")

image.png

2. 管理者アカウントにて外部ロケーションを作成

image.png

3. ユーザーアカウントにて Azure Storege に対して接続確認

次のようなエラーが発生する。

dbutils.fs.ls("abfss://qiita@qiitastoragetest001.dfs.core.windows.net/")

image.png

com.databricks.sql.managedcatalog.acl.UnauthorizedAccessException: PERMISSION_DENIED: User does not have READ FILES on External Location 'qiitastoragetest001_qiita'.

4. 管理者アカウントにてユーザーアカウントに対して外部ロケーションのREAD FILES権原を付与

image.png

5. ユーザーアカウントにて Azure Storege に対して接続確認

想定通りの動作となることを確認

dbutils.fs.ls("abfss://qiita@qiitastoragetest001.dfs.core.windows.net/")

image.png

6. 管理者アカウントにてユーザーアカウントに対して外部ロケーションを削除

image.png

7. ユーザーアカウントにて Azure Storege に対して接続確認

クラスターをデタッチと再アタッチして、下記のコードを実行すると認証エラーとなることを確認。

image.png

dbutils.fs.ls("abfss://qiita@qiitastoragetest001.dfs.core.windows.net/")

image.png

Failure to initialize configuration for storage account qiitastoragetest001.dfs.core.windows.net: Invalid configuration value detected for fs.azure.account.keyInvalid configuration value detected for fs.azure.account.key

8. ユーザーアカウントにて Azure Storege に対して ストレージアカウントキーにて接続確認

Spark Config (ストレージアカウントキー)による認証設定を実施により想定通りの動作となることが確認できました。

storage_account_name = "qiitastoragetest001" # Azure Storage アカウント名をセット
access_key = dbutils.secrets.get("qiita", "AccessKey")

spark.conf.set(
    f"fs.azure.account.key.{storage_account_name}.dfs.core.windows.net",
    access_key,
)

dbutils.fs.ls("abfss://qiita@qiitastoragetest001.dfs.core.windows.net/")

image.png

結論

本検証を通じて、Azure Databricks 利用時に Azure Storage への認証方法として、Unity Catalog の外部ロケーションによる認証と Spark Config (ストレージアカウントキー)による認証がありますが、Unity Catalog の外部ロケーションによる認証が優先されることが確認できました。Unity Catalog の外部ロケーションを作成すると、Spark Config による認証が実施できず、エラーとなりますが、Unity Catalog の外部ロケーションを削除すると、再度、Spark Config による認証が利用できるようになります。この結果から、Azure Databricks と Azure Storage を連携させる際の認証設定において、Unity Catalog の外部ロケーションによる認証の設定が重要であることが理解できます。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0