はじめに
Azure Data Lake Storage Gen2 (ADLS) は大量データ分析をするためのストレージサービスで、Azure Data Lake Storage Gen1の後継にあたる。Gen1は独立したストレージサービスだったが、これらの特長(性能、階層型名前空間、POSIXライクなアクセスコントロール等)を引き継ぎつつ、オブジェクトストレージであるBlobストレージをベースにして上位レイヤに分散ファイルシステムを作って実現をしたものだ。コストもデータ容量においてはほとんど差が無い(オペレーションにかかるコストには少し差があるようだが)。Azureにおいて分析用途のデータを格納しておくにはこれが最有力の選択肢になるだろう。さらにClouderaやHortonworksからもアクセスができるようだ。
今回は 公式ドキュメントを参考にそのADLSにAzure Databricksから接続して分析やETL用途でアクセスする方法を試してみる。
サービスプリンシパルの作成
サービスプリンシパルはリソース/サービスレベルの無人操作を実行する目的でテナント内で作成するAzure ADのユーザーIDで、雑に言うとシステムユーザーみたいな感じ。
Azure ADの管理画面から App registrations を選び、[+ New application registration] からサービスプリンシパルを作成する。
Name, Application type, Sign-on URLを設定する。Sign-on URLは使わないので適当に入力した。
作成ボタンを押し、サービスプリンシパルが作成されたら、作成したサービスプリンシパルの画面に移動して Application ID をコピーしてメモしておく。それからKeyを作成するために [Settings] をクリック。
Keys の設定画面に移動してキー名を入力して、キーの期限を選択して [Save] をクリック。VALUE欄にキーが1度だけ表示されるので、コピーしてメモしておく。
ADLSの管理画面にいき、IAMの設定からRole Assignmenの追加をおこなう。作成したサービスプリンシパルに対してStorage Account Contributorを付与する。
シークレットの作成
Databricks CLI
Databricks CLIをインストール
pip install databricks-cli
ユーザートークンの設定
databricks configure --token
# Databricksのホスト(https://japaneast.azuredatabricks.net 等)と、ユーザートークンを聞かれるので入力 (ユーザートークンを作ってなければ作成)
ストレージアカウント用のsecret
scopeを作成
databricks secrets create-scope --scope <スコープ名> --initial-manage-principal users
secret keyの作成
databricks secrets put --scope <作成したスコープ名> --key <キー名>
# エディタが開きいて下記が表示されます。
"この部分にストレージアカウントのキーを貼り付けて保存(ダブルクォート不要) "
# ----------------------------------------------------------------------
# Do not edit the above line. Everything below it will be ignored.
# Please input your secret value above the line. Text will be stored in
# UTF-8 (MB4) form and any trailing new line will be stripped.
# Exit without saving will abort writing secret.
サービスプリンシパルサービスプリンシパル用のsecret
scopeを作成
databricks secrets create-scope --scope <スコープ名> --initial-manage-principal users
secret keyの作成
databricks secrets put --scope <作成したスコープ名> --key <キー名>
# エディタが開きいて下記が表示されます。
"この部分にサービスプリンシパルのキーを貼り付けて保存(ダブルクォート不要)"
# ----------------------------------------------------------------------
# Do not edit the above line. Everything below it will be ignored.
# Please input your secret value above the line. Text will be stored in
# UTF-8 (MB4) form and any trailing new line will be stripped.
# Exit without saving will abort writing secret.
ファイルシステム作成
ADLSでファイルシステムを作成していない場合は、Databricks側から作成することが可能。Databricks Notebook(Python)を開き以下のコードを実行する。Databricksのランタイムは5.1以上である必要がある。dbutils.secrets.get(scope = "<scope-name>", key = "<key-name>"))
の部分は先に作成したストレージ用のsecret情報を使う。
spark.conf.set("fs.azure.account.key.<ストレージアカウント名>.dfs.core.windows.net",
dbutils.secrets.get(scope = "<scope-name>", key = "<key-name>"))
spark.conf.set("fs.azure.createRemoteFileSystemDuringInitialization", "true")
dbutils.fs.ls("abfss://<ファイルシステム名>@<ストレージアカウント名>.dfs.core.windows.net/")
spark.conf.set("fs.azure.createRemoteFileSystemDuringInitialization", "false")
ファイルシステムのマウント
準備が出来たらファイルシステムをマウントする。ここでの"fs.azure.account.oauth2.client.secret": dbutils.secrets.get(scope = "<scope-name>", key = "<key-name>"),
部分はサービスプリンシパル用のsecretを使う。
configs = {"fs.azure.account.auth.type": "OAuth",
"fs.azure.account.oauth.provider.type": "org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider",
"fs.azure.account.oauth2.client.id": "<サービスプリンシパルのアプリケーションID>",
"fs.azure.account.oauth2.client.secret": dbutils.secrets.get(scope = "<scope-name>", key = "<key-name>"),
"fs.azure.account.oauth2.client.endpoint": "https://login.microsoftonline.com/<AADのファイルシステム名テナントID>/oauth2/token"}
dbutils.fs.mount(
source = "abfss://<ファイルシステム名>@<ストレージアカウント名>.dfs.core.windows.net/",
mount_point = "/mnt/<マウントポイント>",
extra_configs = configs)
データへのアクセス
マウントしたのであとは通常のdbfsへのアクセスと同じように行う。
df = spark.read.text("dbfs:/mnt/<マウントポイント>/<ファイル名>")
display(df)
シークレットの用意のためにDatabricks CLIを使うところがちょっと面倒だが、マウントしてしまうと後は全く他との違いを意識しなくても良いのでその点は楽だ。ADLSにデータを統合できると良いが、そうでなくてもAzure DatabricksはAzure内のストレージやDB等だいたいどこにデータがあってもアクセスできるので便利だ。