3
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Azure Machine Learningに既存のAzure Data Lake Gen2を追加する方法

Posted at

Azure Machine Learningに既存のAzure Data Lake Gen2を追加する方法

今回は、Azure Machine Learningに既存のAzure Data Lake Gen2を追加する方法を解説します。
Azureワークショップで躓いている方も多かったので、お役に立てば幸いです。

事前確認1.Azure Data Lake Gen2の確認

Azure Data Lake gen2とは一言で言うとオブジェクトストレージであるAzure Blob Storageの上位互換です。
オブジェクトストレージにファイルシステムの機能(階層的名前空間)が追加されたことにより、分析のパフォーマンスを向上させることが可能となります。
Hadoopにも対応していることからAzure SynapseやDatabricksのストレージとして利用されています。
Azure Blob Storageと見分けがつきにくいですが、
[概要]->[プロパティ]->[Data Lake Strage]->[階層構造の名前空間]が[有効]になっていればData Lake Gen2です。
画像1.png

事前確認2.Azure Machine Learningの確認

Azure Machine Learning上からAzure上のデータにアクセスする場合は、新しいデータストアを作成します。
Azure Data Lake Gen2に接続したい場合、認証の種類は22年7月時点で「サービスプリンシパル」のみ対応しています。
それでは、サービスプリンシパルを作成していきましょう。
画像19.png

サービスプリンシパルの作成

サービスプリンシパルとは何でしょうか?初学者の方は躓くポイントだと思います。
私なりの一言説明としては「ユーザの代わりとして使えるアプリケーション用ID」ですかね。
サービスへアクセス権限は基本的にユーザに紐づくものですが、アプリケーションにアクセス権限を持たせたい場合に使います。
今回で言うと、Azure Machine LearningというアプリケーションがData Lake Gen2というサービスにアクセスする、というユースケースですね。
ググってもらえると様々な解説記事が出ているのでそちらもご参照いただければと思います。

Azure Portalの検索窓から「アプリ」で検索すると「アプリの登録」がでてきます。
そちらの画面から[新規登録]をクリックしましょう。
画像4.png
アプリケーション名を入力して、[登録]をクリックしましょう。
画像5.png
アプリケーションの[概要]からクライアントIDをメモしておきましょう。
画像6.png
次にクライアントシークレットを発行します。
[証明書とシークレット]->[新しいクライアントシークレット]をクリックし、有効期限を設定し、[追加]をクリックしましょう。
画像7.png
すると、シークレットが生成されますので、こちらの値をメモしておきましょう。
画像8.png

以上でサービスプリンシパルの作成は完了です。
空のアプリケーションと認証シークレットまで準備ができました。
次はこちらのアプリケーションにアクセス権限を付与していきましょう。

サービスプリンシパルにロールを付与

Azue Portalの検索窓から「ストレージアカウント」で検索し、アクセスしたいAzure Data Lake Gen2をクリックします。
今回は「mlstoragedemo1234」というストレージを使います。
[アクセス制御]->「追加」をクリックしましょう。
画像10.png
ここでは、サービスプリンシパルに与えるロールを指定します。
Azure Machine Learningではストレージへの読み・書き両方行うので「ストレージBLOBデータ共同作成者」を選択します。
画像11.png
[メンバーを選択する]をクリックし、右上[選択]の検索枠から先ほど作成したサービスプリンシパルを検索し、選択しましょう。
画像12.png
[レビューと割り当て]をクリックしましょう。
画像13.png

データストアの登録

Azure Machine Learning Studioに戻り、[データストア]->[新しいデータストア]をクリックしましょう。
データストア名を入力し、データストアの種類を「Azure Data Lake Storage Gen2」にしましょう。
先ほどメモしたクライアントIDとクライアントシークレットを入力し、作成をクリックしましょう。
画像16.png
無事にデータストアとして登録されていることが確認できました!
画像17.png

まとめ

Azure Machine Learningに既存のAzure Data Lake Gen2を追加する方法を解説しました。
特にサービスプリンシパル周りが少しややこしかったですが、一度理解すればそこまで難しい操作ではないと思います。
データアクセスを理解し、積極的にAzure Machine Learningを活用していきましょう!

3
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?