Azure Machine Learningに既存のAzure Data Lake Gen2を追加する方法
今回は、Azure Machine Learningに既存のAzure Data Lake Gen2を追加する方法を解説します。
Azureワークショップで躓いている方も多かったので、お役に立てば幸いです。
事前確認1.Azure Data Lake Gen2の確認
Azure Data Lake gen2とは一言で言うとオブジェクトストレージであるAzure Blob Storageの上位互換です。
オブジェクトストレージにファイルシステムの機能(階層的名前空間)が追加されたことにより、分析のパフォーマンスを向上させることが可能となります。
Hadoopにも対応していることからAzure SynapseやDatabricksのストレージとして利用されています。
Azure Blob Storageと見分けがつきにくいですが、
[概要]->[プロパティ]->[Data Lake Strage]->[階層構造の名前空間]が[有効]になっていればData Lake Gen2です。
事前確認2.Azure Machine Learningの確認
Azure Machine Learning上からAzure上のデータにアクセスする場合は、新しいデータストアを作成します。
Azure Data Lake Gen2に接続したい場合、認証の種類は22年7月時点で「サービスプリンシパル」のみ対応しています。
それでは、サービスプリンシパルを作成していきましょう。
サービスプリンシパルの作成
サービスプリンシパルとは何でしょうか?初学者の方は躓くポイントだと思います。
私なりの一言説明としては「ユーザの代わりとして使えるアプリケーション用ID」ですかね。
サービスへアクセス権限は基本的にユーザに紐づくものですが、アプリケーションにアクセス権限を持たせたい場合に使います。
今回で言うと、Azure Machine LearningというアプリケーションがData Lake Gen2というサービスにアクセスする、というユースケースですね。
ググってもらえると様々な解説記事が出ているのでそちらもご参照いただければと思います。
Azure Portalの検索窓から「アプリ」で検索すると「アプリの登録」がでてきます。
そちらの画面から[新規登録]をクリックしましょう。
アプリケーション名を入力して、[登録]をクリックしましょう。
アプリケーションの[概要]からクライアントIDをメモしておきましょう。
次にクライアントシークレットを発行します。
[証明書とシークレット]->[新しいクライアントシークレット]をクリックし、有効期限を設定し、[追加]をクリックしましょう。
すると、シークレットが生成されますので、こちらの値をメモしておきましょう。
以上でサービスプリンシパルの作成は完了です。
空のアプリケーションと認証シークレットまで準備ができました。
次はこちらのアプリケーションにアクセス権限を付与していきましょう。
サービスプリンシパルにロールを付与
Azue Portalの検索窓から「ストレージアカウント」で検索し、アクセスしたいAzure Data Lake Gen2をクリックします。
今回は「mlstoragedemo1234」というストレージを使います。
[アクセス制御]->「追加」をクリックしましょう。
ここでは、サービスプリンシパルに与えるロールを指定します。
Azure Machine Learningではストレージへの読み・書き両方行うので「ストレージBLOBデータ共同作成者」を選択します。
[メンバーを選択する]をクリックし、右上[選択]の検索枠から先ほど作成したサービスプリンシパルを検索し、選択しましょう。
[レビューと割り当て]をクリックしましょう。
データストアの登録
Azure Machine Learning Studioに戻り、[データストア]->[新しいデータストア]をクリックしましょう。
データストア名を入力し、データストアの種類を「Azure Data Lake Storage Gen2」にしましょう。
先ほどメモしたクライアントIDとクライアントシークレットを入力し、作成をクリックしましょう。
無事にデータストアとして登録されていることが確認できました!
まとめ
Azure Machine Learningに既存のAzure Data Lake Gen2を追加する方法を解説しました。
特にサービスプリンシパル周りが少しややこしかったですが、一度理解すればそこまで難しい操作ではないと思います。
データアクセスを理解し、積極的にAzure Machine Learningを活用していきましょう!