今回は チュートリアルのスターターキット の手順を見ながらサンプルデータを登録してみます。また公式ドキュメントに書かれていない情報も補足していきますが、基本かつ最新情報は公式ドキュメントを見てください。
スターターキットの準備
1. こちらのリンクより スターターキットを任意のフォルダにダウンロード。
2. PowerShell を管理者として起動。手元では Windows Terminal を利用。
3. 以下コマンドでダウンロードしたファイルを解凍。
dir -Path <path-to-starter-kit> -Recurse | Unblock-File
4. 続いて Azure モジュールをインストール。
Install-Module -Name Az -AllowClobber -Scope CurrentUser
必要な情報を収集
以降の PowerShell スクリプトで使う値を収集します。
TenantId
Azure ポータルより Active Directory を選択して、表示されている「テナント ID」をコピーします。
SubscriptionID、CatalogName、CatalogResourceGroupName
Azure ポータルより作成した Purview を選択。
SubscriptionID: 表示されている「サブスクリプション ID」
CatalogName: Purview アカウントの名前
CatalogResourceGroupName: リソース グループ名
スクリプトの実行
ではスクリプトを実行してサンプルデータを作成していきます。
1. スターターキットフォルダに移動。
cd <path-to-starter-kit>
2. スクリプトの実行ポリシーを変更。手元の環境では組織設定の影響で実行できなかったが、RemoteSigned でも問題なく動作。
Set-ExecutionPolicy -ExecutionPolicy Unrestricted
3. 以下コマンドで Azure に接続。TenandId と SubscriptionID は上記で取得したものを使用。認証のためブラウザが起動するのでサインインを実行。
.\RunStarterKit.ps1 -ConnectToAzure -TenantId <TenantID> `
-SubscriptionId <SubscriptionID>
4. 以下コマンドを実行して、サンプルに必要な Azure リソースやデータを作成。newresourcegroupname はサンプルデータ用のリソースグループ名で、新規に作成される。
※尚、この名前で各種リソースも作成されるため、ユニークで且つ短いものを推奨。
※ここでは ken20201224 とした。
.\RunStarterKit.ps1 -CatalogName <CatalogName> -TenantId <TenantID>`
-ResourceGroup <newresourcegroupname> `
-SubscriptionId <SubscriptionID> `
-CatalogResourceGroup <CatalogResourceGroupName>
スクリプトは 5-6 分程度かかります。また途中別ウィンドウが開きますが閉じないでください。別ウィンドウではサンプルデータを登録しているので、眺めているとどういうデータが登録されているか見れて面白いです。
Azure リソースの確認
スクリプトが newresourcegroupname に以下リソースを作成します。
- Blob ストレージ: <newresourcegroupname>abcblob
- Azure Data Lake Storage Gen2: <newresourcegroupname>abcadls
- Azure Data Factory: <newresourcegroupname>abcfactory
Blob ストレージ
2017 年 12 月から 2018 年 3 月分までの各種ファイルが含まれます。パスは yyyy/M/d 形式 です。
適当に中身を確認してみてください。
Azure Data Lake Gen2 ストレージ
Blob ストレージの starter1 コンテナー複製されたものが入っています。
Azure Data Factory
Blob から Azure Data Lake Gen2 ストレージへのファイルコピーアクティビティが設定されています。
またスクリプトにより一度実行されています。これでファイルがコピーされたことが分かります。
Azure Purview からのアクセス権設定
Azure Purview から各種データソースへアクセスする場合、権限が必要となります。一部のデータソースは Purview アカウント作成時に自動で生成されるマネージド ID を使った管理が可能です。
1. Azure ポータルより Blob ストレージアカウントを開き、「アクセス制御(IAM)」を選択。「+追加」より「ロールの割り当ての追加」をクリック。
2.「ストレージ BLOB データ閲覧者」ロールを Purview アカウントに付与。
3. 同じ作業を Azure Data Lake Gen2 リソースでも実行。
データソースの追加とスキャンの実行
権限の設定を行ったので、最後にデータソースの追加とスキャンを行います。
1. Azure Purview Studio より「Sources」を選択し、「Register」をクリック。現在サポートされているデータソースが表示される。「Azure Blob Storage」を選択し「Continue」をクリック。
2. 任意の名前を入力し、ドロップダウンよりスクリプトで作成した Blob ストレージアカウントを選択。「Register」をクリック。
4. Azure Data Lake Gen2 に対しても同様の作業を実施。結果の画面より「スキャンアイコン」をクリック。
5. Credential で Purview MSI が選択されていることを確認して、「Continue」をクリック。
※MSI = Managed Service Identity
6. スキャンパスの選択画面では、全てを選択した状態で「Continue」をクリック。
7. スキャンルールはシステム既定のものを選択して、「Continue」をクリック。
※別の記事でスキャンルールの詳細は見ていきます。
8. スキャンのトリガーでは「Once」を選択して、「Continue」をクリック。定期的にスキャンすることも可能。
9. 最後に「Save and Run」をクリック。同様の手順を Azure Data Lake Gen2 でも実施。
スキャンの確認
1. ソースの画面より、スキャンを確認したいソースの「View details」をクリック。
スキャン結果の確認
スキャンにかかる時間はデータ量に依存します。また一部メタデータは全てのスキャンが終わってからでないと生成されないようです。
次回はスキャンした結果の確認とメタデータの編集を見ていきます。