2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

Azure Purview : スキャンした資産の検索

Last updated at Posted at 2020-12-26

今回は以下 4 つのチュートリアルにある内容を見ていきます。

資産の検索

検索は Azure Purview Studio のホーム画面で行えます。では早速検索してみましょう、

1. 検索バーに「contoso」と入力。履歴やサジェスチョンが表示される。また登録済ソースの数や、スキャンされた資産の数も表示されていることを確認。
image.png

2. 検索を実行すると結果の一覧と、資産の種類や分類が表示される。分類はルールに基づき、スキャン実行時に自動的に付与される。ここでは Azure Blob Storage でフィルターを実行。
image.png

3. 検索結果より「Contoso_Liability_{N}.ssv」を開く。階層構造の情報やパスなどが確認できる。
image.png

4. Lineage タブをクリック。Data Factory のアクティビティで Azure Data Lake Gen2 にコピーされていることが分かる。
image.png

5.「TestCopyPipeline」をクリック。ここからこの資産に移動することも、Data Factory を開くことも可能。「Open in Azure Data Factory」をクリック。
image.png

6. Data Factory Studio が開き、該当のパイプラインが表示されることを確認。
image.png

7. Azure Purview Studio に戻り、「Switch to asset」をクリックし、TestCopyPipeline 資産に移動。このパイプラインに関連する系列が表示される。
image.png

スキャンされた資産はそれ自体の情報も付与されますが、系列 (Lineage) や分類などの情報も自動で生成されます。

連絡先の付与

自動で付与されない情報は手動で付与できます。ここでは連絡先を登録してみます。

1.「Contacts」タブをクリック。連絡先がないことを確認。
image.png

2.「Edit」をクリックして、Experts や Owners にユーザーを追加。ユーザー情報は Azure AD から取得される。
image.png

3.「Save」をクリック。元の画面で情報が更新されていることを確認。
image.png

連絡先を資産に登録することで、アクセス権設定の依頼やデータの中身の確認も容易になりそうです。

リソース セット

次に先ほどの資産で N と表示されていた点について見ていきます。
Synapse などで大規模データの処理を行う場合、通常 1 つのテーブルの情報は複数のファイルに分割して保存されます。しかしデータカタログの観点からは、これは 1 つの資産であるため、Azure Purview はこのようなデータを リソースセット として管理します。

実際にその様子を確認していきます。また今回はキーワードで検索するのではなく、資産の一覧から情報を取得してみます。

1. ホーム画面より「Browse assets」をクリック。
image.png

2. 一覧より「Azure Blob Storage」を選択。
image.png

3. スクリプトで作成された blob を選択。
image.png

4. 階層を展開して情報を確認。実際の blob の階層とは異なり、starter1 直下にファイルが表示されている。
image.png

5.「Contoso_AccountsReceivable_{N}.ssv」をクリックして開き、qualifiedName を確認。日付のパターンで同一スキーマファイルを認識していることが分かる。
image.png

ここでファイル名に使われている N については、リソースセットパターン と言い、Azure Purview がスキャン時に自動で複数のファイルを同じ資産として認識する機能で使われます。

リソースセットの仕組みや制限

公式ドキュメントに、詳細があります。
Azure Purview がリソース セットを検出する方法

現在のところ、Azure BLOB、ADLS Gen1、ADLS Gen2 のファイルで、Parquet や JSON、CSV などが対象になるようです。

スキーマ

スキーマを認識できるファイルの場合、スキーマ情報および、列に対する分類が付与されます。以下の例では email 列が「Email Address」に分類されています。
image.png

またスキーマに誤りがある場合、「Edit」から情報を修正することが可能です。

1.「Edit」をクリックして編集画面を表示。
image.png

2.「ZipCode」列の分類で、「U.S. Zip Codes」を選択。
image.png

3.「Save」をクリックして情報が反映されたことを確認。
image.png

尚、上記画面にも表示されているとおり、手動でスキーマを編集した場合、今後のスキャンによって自動的に更新されなくなります。

用語

自動で付与される分類の他に、Azure Purview では用語を登録して利用することができます。用語は資産に紐づけることができ、分類や管理に役立ちます。

用語の作成と資産への追加

1. メニューより「Glossary」をクリック。用語がまだ登録されていない事を確認。New term」をクリック。
image.png

2. テンプレートは System default しかないため、そのまま「Continue」をクリック。名前と説明に任意の値をいれて「Create」をクリック。
image.png

3. 用語一覧で表示されることを確認。
image.png

4. 画面上部の検索バーより「cash flow」で検索を行い、表示された結果から任意のレコードを選択。
image.png

5.「Edit」をクリック。
image.png

6. Glossary より作成した Financial を選択。「Save」をクリック。
image.png

7. もう一度「cash flow」で検索。Glossary に結果が表示され、フィルターできることを確認。
image.png

用語の一括インポート

用語は CSV から一括でインポートすることもできます。またここではカスタムのテンプレートを作成して使用します。

1. スターターキットにある「StarterKitTerms.csv」を Excel で開き、Expert や Stewards 欄にある値を削除。

2. Glossary より「Import terms」をクリック。
image.png

3.「System default」テンプレートが選択された状態で「Continue」をクリック。
image.png

4. 編集した StarterKitTerms.csv」をアップロード。
image.png

5. 用語がインポートされたことを確認。
image.png

チュートリアルにはテンプレートのカスタマイズも紹介されているので、興味があればそちらも試してみてください。

データの検索との違い

個人的に大きな勘違いをしていたのは、Purview はデータソースの情報を検索できるのであり、データそのものを検索できるわけではないという点です。

例えば顧客テーブルに具体的な顧客名が入っているとしても、その顧客名で検索が行えるわけではありません。あくまでデータソース(資産)のメタデータや、データを解析して分類した結果が検索できます。

より資産を発見しやすくするためには、付加情報を手動でうまくつけていく必要もあると思うので、情報の中身や組織の性質なども含めて運用は検討していく必要があります。

次回は Power BI をソースとして追加していきます

次の記事へ
前の記事へ

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?