はじめに
インフォマティカが提供する CDGC(データガバナンス&カタログ) を使って Azure Data Lake Storage Gen2(以降、ADLS gen2 とします)に関するメタデータを取得(スキャン)するためのガイドです。
※2023/08時点の情報を元にしています。
事前準備
CDGC がセットアップ済みであり、メタデータコマンドセンターのメニューにアクセスできるライセンス、およびユーザロール、ユーザである事を確認して下さい。詳細は こちらのナレッジベース を確認頂ければと思います。
前提
ADLS gen2 からメタデータを取得を構成する為には事前に Azure Data Lake Storage Gen2 タイプの接続を作成しておく必要があります。接続定義にはサービスプリンシパルによる認証が必要になりますので、事前に Azure AD 管理者様にサービスプリンシパルの作成と、そのサービスプリンシパルがスキャン対象の ADLSgen2 に対してアクセスできるように権限を付与しておく必要があります。詳細については Azure AD 管理者様にご相談を頂ければと思います。もし、ご自身のアカウントを利用頂いて、ご自身で設定が必要な場合、Microsoft 社のこのあたりのドキュメント が参考になるかと思います。
サポート対象ファイル
現状、以下のタイプの拡張子のファイルに対してメタデータの抽出がサポートされています。
- AVRO
- CSV
- JSON
- Parquet
- Excel形式(XLS,XLSX,XLSM)
2023 7月以降、プレビュー機能で Excel ファイルのスキャンも可能になっています。
しかしながら、プレビュー機能は評価目的でのみサポートされており、動作保証されていません。運用環境や運用環境でのご利用に関してはサポートされない事にご注意ください。
接続設定
下記の通り、認証タイプが複数選べる状態になっているのですが、現時点ではサービスプリンシパルのみが使用できるという機能上の制限(KB 000196991) があります。その為、今回の設定ではサービスプリンシパルでの認証を使用しています。以下、接続例ですが、接続プロパティに関する詳細は オンラインヘルプ にもありますので、必要に応じて確認してください。
接続を作成する際に Secure Agent を指定する必要があります。もし、まだインストールされていない方はこちらのナレッジを参考に Secure Agent をインストールしてください。
スキャン設定
本ドキュメントでは ADLSgen2 に配置されたファイル、列の情報とそのデータの傾向を示す "値の頻度" を取得する為の手順を簡単に紹介しています。なお、資料に関しては前回使用したテーブルデータを CSV ファイルにエクスポートして、demo-qiita という名称のコンテナ―にフォルダ(2023/Aug)を作成、配置しました。
メタデータの抽出のみの場合、ユーザー(今回はサービスプリンシパルを使用しました)は Read 権限のみあれば問題ありませんが、値の頻度など、データのプロファイルが必要な場合、ユーザーは Read/Write/Execute の権限を持っている必要があります。詳細については、英語になってしまいますが、How to Library や、公式のドキュメント もありますので、もし詳細を確認されたい場合にはこれらも参照してみてください。
1.メニューから "メタデータコマンドセンター" を起動
メニューから "メタデータコマンドセンター" を選択します。
2.メタデータコマンドセンターから "新規" を選択
新しくカタログソースを設定する為、"新規"をクリックします。
3.カタログソースから "Microsoft Azure Data Lake Storage Gen2" を選択
カタログソースにリストされる一覧から "Microsoft SQL Server" を選択します。
4.Microsoft Azure Data Lake Storage Gen2 への接続を設定
作成しておいた Microsoft Azure Data Lake Storage Gen2 への接続を選択し、"次へ" をクリックします。
5."メタデータの抽出" を設定
5-1.ランタイム環境
ランタイム環境から利用する Secure Agent を選択します。
5-2.メタデータ変更オプション
"メタデータ変更オプション" には今回も "削除" を設定しておきます。また、今回はスキャン対象のフォルダをフィルタで絞り込みます。今回の例では 2023/Aug 配下にファイルを配置していますので、一旦、このフォルダのみフィルターとして設定し、"保存" します。
"メタデータ変更オプション" のチェック項目の日本語訳が正しくなく、修正予定がまだ先になりますので簡単に補足しておきます。この設定は既にカタログに取り込まれたアセットがソースシステム側で削除された場合にどう処理されるかを決定します。それぞれの設定に対して以下の様な動作となります。
オプション | 動作 |
---|---|
保持 | カタログソースからオブジェクトが削除されたり、フィルタ条件の変更でオブジェクトがヒットしなくなった場合でも、既にカタログ内に存在する変更前のアセットはカタログに保持されます。 |
削除 | カタログソースからオブジェクトが削除された場合及びフィルタ条件の変更でオブジェクトがヒットしない場合、メタデータがカタログから削除されます。 |
つまり、過去に一度でもアセットとして存在していたら残したい、という場合には"保持"を設定する必要がありますが、現在の最新のデータベース側の最新状態、フィルタ条件に応じたアセットを抽出、検索したい場合、"削除"を設定します。
5-3.メタデータフィルタ
データベースと同様にメタデータ抽出にフィルタを設定できます。設定可能な詳細は "サポートされているワイルドカードと例を非表示にする" を展開すると、フィルタ構文を確認する事が出来ますので別途確認してみてください。今回は 2023/Aug というディレクトリ配下にファイルを配置したので、これを指定してみます。
5-4.Use First Row as Header of Delimited Files
格納されているファイルの先頭行をヘッダーとして使うかという設定になります。近いタイミングで翻訳修正される予定ですので詳細は一旦置いておきますが、ヘッダー有のファイルでしたので、"はい" を選択しておきます。
6."データプロファイリングとデータ品質" を設定
"データプロファイリングとデータ品質" タブで再度、"ランタイム環境" を選択します。また、"値の頻度" と呼ばれる実データのサマリを取得する為には "署名と値を保持" にチェックを入れます。
7."実行"でスキャンを開始
他にも設定項目はありますが、今回の記事のフォーカスポイントは設定し終わったので、"実行" をクリックし、スキャンを実行します。
8.実行スコープの設定
初回実行時、以下の様にオプションはグレーアウトしていますので、そのまま進めます。
9.ジョブ監視画面で結果を確認
ジョブ監視画面に自動で遷移するので、しばらく待ってステータスが完了した事を確認します。
結果の確認
1.取得したアセットの一覧を表示
CDGC の画面(データガバナンスとデータカタログ)を呼出し、該当のカタログリソースが閲覧できることを確認します。
2.値の頻度の確認
任意の列を選択して、値の頻度を確認します。前回は BLOOD 列に着目しましたが、その結果からは A 型の顧客が多いようでした(安心してください、ダミーデータですよ)。今回は PREFECTURE 列を見てみましょう。あまりメジャーではない私の地元は上位 TOP 3 に入っているようです。なんのデータかわからないので、いいのか悪いかもわかりませんが、これがビジネスデータであればデータプロファイルの結果からは何らかの傾向やインスピレーションを得られそうですね。
Tips
- プロファイリングに失敗する場合、ナレッジベース(KB)を参照し、エラーメッセージから検索を実施して下さい。
- 何らかの理由でスキャンが失敗し、該当するような事例がナレッジベースからも見つからない場合、サポート契約があればご支援が可能です。その場合、初期情報を纏めてお問い合わせください。