Azure Purview とは?
Azure Purviewとは、Azure やオンプレミス、他のクラウドサービス上のデータに対して、データマップや検索機能、分類・ラベル付けや Lineage 機能を提供する、統合的なデータガバナンスソリューションです。2020年12月3日にパブリックプレビューリリースとなりました。
本記事では、Azure Purview の機能を使って、Blob Storage のファイルをスキャンし、情報を Purview 上で可視化するステップを見ていきたいと思います。
環境の準備
*こちらの記事もご参照ください。
Azure Purview アカウント
ここからは、こちらの公式ドキュメントを基に進めていきます。
まず、Azureサブスクリプションの中で、リソースプロバイダーの登録が必要です。サブスクリプションの画面からリソースプロバイダーを選択し、Purview を登録しておきます。
次に Purview アカウントを作成します。Portal 上の検索窓で「Purview」と検索すると Azure Purview が出てくるので、クリックして追加からアカウント作成に入ります。
他の Azure リリースと同じく、リージョンやリソースグループの入力を行い、アカウントを作成します。
以上で、アカウント作成は完了です。
Blob Storage の準備
Storage アカウントとコンテナーの作成
Storage アカウントが無い場合は、ひとつご作成ください。既存のアカウントを利用することもできます。コンテナーも準備します。
テストファイルのアップロード
今回はクレジットカード番号のスキャンのテストをするので、下記のようなファイルをローカルで作成し、コンテナーにアップロードします。ファイル名は CreditCard.txtとします。
Purview アカウントへのアクセス権の付与
Purview がスキャンをするときにアクセス権が必要です。今回は一番簡単な Azure AD Managed Identity を利用します。Purviewアカウント作成時に、同名の Managed Identity が作成されます。それに対して、このストレージアカウントに対するストレージ Blob データ閲覧者権限を付与します。
これで基本的な準備は完了です。
スキャンの実行
ここからの作業は Purview Studio で行います。下記の Open Purview Studio から Studio を開けます。
こちらが Purview Studio です。
Purview コレクションの作成
まず Sources から + New Collection をクリックし、データソースのセットとなるコレクションを作成します。
Register
次にデータソースを登録します。作成したコレクションの中で、Register をクリックします。今回はメニューから Blob Storage を選択します。
そして、上記のストレージアカウントを選択します。
New Scan
そして、いよいよスキャンを設定します。New Scan をクリックします。
Credential は MSI にし、ターゲットとなるコンテナーを選択します。ルールセットは今回はデフォルトのままにしますが、ご自身のスキャンルールも作れます。
実行は Once にしてみますが、スケジュール化も可能です。Once にした場合は、そのまま進み、Save and Run をクリックするとキューに入り、実行に移ります。
結果の確認
分析は Insights から可能です。
スキャンの実行結果
スキャンの結果については、Scan Insights から確認できます。成功・失敗などがまとめて確認できます。
アセットの分析
Blob Storage のファイルの分析については、検索窓の Search assets から見れます。試しに Credit と検索します。すると、先ほどのファイルが見つかります。
これをクリックすると、ファイルの詳細情報が出てきます。分類が正しく動いていると、 Classification に Credit Card Number が出てきます。これは、Purview のデフォルトの分類ルールの中に Credit Card Number が入っているため、自動で分類された結果となります。この分類ルールは自分のものを足すことができ、ニーズに合わせた自動分類が可能です。
Microsoft 365 Compliance との連携について
上記のファイルでは、CreditCard.txt の横に、Confidential という秘密度ラベルが付いています。Purview では、Microsoft 365 の Compliance Center から秘密度ラベルをインポートし、ラベル付けを行うことができます。ラベル自体の設定は、Microsoft 365 側で行い、Azure Purview への連携を明示的に有効化する必要があります。詳細については、こちらのドキュメントもご参照ください。
最後に
本記事では Blob Storage のファイルに対して、Azure Purview からスキャンを行い、データを可視化するステップを見てきました。Blob ストレージだけではなく、データベースや Azure Synapse Analytics, Azure Data Lake なども対象になるので、今後別のリソースについてもご紹介できればと思います。
*本稿は、個人の見解に基づいた内容であり、所属する会社の公式見解ではありません。また、いかなる保証を与えるものでもありません。正式な情報は、各製品の販売元にご確認ください。