はじめに
インフォマティカが提供する CDGC(データガバナンス&カタログ) を使って Azure Data Factory(以降、ADF とします)に関するメタデータを取得(スキャン)するためのガイドです。
※2023/08時点の情報を元にしています。
事前準備
CDGC がセットアップ済みであり、メタデータコマンドセンターのメニューにアクセスできるライセンス、およびユーザロール、ユーザである事を確認して下さい。詳細は こちらのナレッジベース を確認頂ければと思います。
前提
前回の投稿では Azure Data Lake Storage gen2 上のファイルをスキャンする内容をご紹介しました。実はこのファイルは前々回の Microsoft SQL Server のテーブルを Azure Data Lake Storage gen2 にコピーする、以下の様なシンプルな ADF のパイプラインで生成したものでした。
つまり、この ADLS gen2 上のデータは SQL Server => ADF => ADLS gen2 と流れてきたデータになります。こういったデータの流れを "系統" であったり、"リネージ"、"リネージュ" と言います。
今回の記事ではこのパイプラインを使用し、メタデータを抽出するまでと、SQL Server => ADF => ADLS gen2 のリネージュを確認するまでの手順を紹介してみようと思います。
スキャン設定
それでは早速、ADF のメタデータをまずは抽出してみましょう。
1.メニューから "メタデータコマンドセンター" を起動
メニューから "メタデータコマンドセンター" を選択します。
2.メタデータコマンドセンターから "新規" を選択
新しくカタログソースを設定する為、"新規"をクリックします。
3.カタログソースから "Microsoft Azure Data Factory" を選択
カタログソースにリストされる一覧から "Microsoft Azure Data Factory" を選択します。
4.Microsoft Azure Data Factory への接続を設定
ADF にアクセス可能なサービスプリンシパル情報を入力し、"次へ" をクリックします。
5."メタデータの抽出" を設定
"メタデータの抽出" タブで以下の各項目を設定します。
5-1.ランタイム環境
ランタイム環境から利用する Secure Agent を選択します。
5-2.メタデータ変更オプション
"メタデータ変更オプション" には今回も "削除" を設定しておきます。
"メタデータ変更オプション" のチェック項目の日本語訳が正しくなく、修正予定がまだ先になりますので簡単に補足しておきます。この設定は既にカタログに取り込まれたアセットがソースシステム側で削除された場合にどう処理されるかを決定します。それぞれの設定に対して以下の様な動作となります。
オプション | 動作 |
---|---|
保持 | カタログソースからオブジェクトが削除されたり、フィルタ条件の変更でオブジェクトがヒットしなくなった場合でも、既にカタログ内に存在する変更前のアセットはカタログに保持されます。 |
削除 | カタログソースからオブジェクトが削除された場合及びフィルタ条件の変更でオブジェクトがヒットしない場合、メタデータがカタログから削除されます。 |
つまり、過去に一度でもアセットとして存在していたら残したい、という場合には"保持"を設定する必要がありますが、現在の最新のスキャン対象の最新状態、フィルタ条件に応じたアセットを抽出、検索したい場合、"削除"を設定します。
5-3.メタデータフィルタ
データベースと同様にメタデータ抽出にフィルタを設定できます。設定可能な詳細は "サポートされているワイルドカードと例を非表示にする" を展開すると、フィルタ構文を確認する事が出来ますので別途確認してみてください。
今回の ADF 内には以下の様に幾つかパイプラインがあるのですが、デモ用のパイプラインだけにしたかったので、"リソース名/パイプライン名"(CST-Data-Factory/DEMO_qiita_ADF_pipeline/*)で指定しています。
6."実行"でスキャンを開始
他にも設定項目はありますが、今回の記事のフォーカスポイントは設定し終わったので、"実行" をクリックし、スキャンを実行します。
7.実行スコープの設定
初回実行時、以下の様にオプションはグレーアウトしていますので、そのまま進めます。
8.ジョブ監視画面で結果を確認
ジョブ監視画面に自動で遷移するので、しばらく待ってステータスが完了した事を確認します。
以下の様にパイプライン内のコピーアクティビティ、データセットなどが確認できますね。
リネージュの確認と参照データセット
スキャンが完了しましたので、ADF 内のアクティビティからリネージュを一旦確認してみましょう。すると以下の様なリネージュが確認できるかと思います。
ソース => コピーアクティビティ => シンク のようなデータの系統、リネージュが確認できますね。ただ、トップレベルのリソースはいずれも、ADF リソースになっています。
この点について少し、補足したいと思います。CDGC はスキャンした ADF の定義から、このパイプラインが SQL Server のテーブルと ADLS gen2 上のファイル間のコピーアクティビティである事はわかっています。しかし、これらのテーブルやファイルはパイプラインのような ADF の実オブジェクトではありません。とはいえ、仮にこのような参照されるテーブルやファイルなどが合わさって表示されないと、どのような処理なのか、せっかく ADF のメタデータを抽出しても意味が分かりませんよね。なので CDGC はこのようなスキャン対象のリソースの外で参照されているようなアセット(これを "参照データセット" と呼んでいます)を CDGC がリソースを作成時に併せて作成するように動作します。結果として、スキャンが成功すると ADF が参照している参照データセット同士の、ADF 内での閉じたようなリネージュの表記として表示されている、という感じです。
しかし、前提の個所でも触れたように今回のコピーアクティビティが使用するソースとシンクはどちらも、既に前回までに CDGC でカタログ化されていましたよね。参照データセットではなく、実際に既にカタログ化されたメタデータと紐づけてリネージュ出来るように、"接続割り当て" を実行してみましょう。
接続割り当て
メタデータコマンドセンターを開き、"監視" => "接続割り当て" をクリックします。すると、以下の画面の様に 左側に ADF のリンクされたサービス名(Linked Service名)がリストされているのが見えると思います。
ここでリンクされたサービス名の右端の三点リーダーから、"Assign" をクリックすると以下の様にリソースの選択画面が表示されます。
前回スキャンした ADLS gen2 リソースが表示されていますね。もし、同じタイプのリソースが多数ある場合には "フィルタの追加" をクリックし、絞り込みをかけるとよいでしょう。左のチェックボックスにチェックを入れ、"Assign" をクリックします。また、もう 1 つの接続には同じ手順で SQL Server 側を割り当てます。
しばらく待つと以下の様に接続割り当てが完了した事が確認できます。
結果の確認
さぁ、それでは結果を確認してみましょう。
1.取得したアセットの一覧を表示
CDGC の画面(データガバナンスとデータカタログ)を呼出し、該当のカタログリソースが閲覧できることを確認します。
2.リネージュの確認
ADLS gen2 上に出力されたファイルからリネージュを確認してみましょう。最終的に以下の様に CDGC 内の SQL Server 上の CUSTOMER_DETAILS テーブルから、ADF のコピーアクティビティを経て、CDGC 内の ADLS gen2 へデータが流れた事が確認できますね。
Tips
- スキャンなどが失敗する場合、ナレッジベース(KB)を参照し、エラーメッセージから検索を実施して下さい。
- 何らかの理由でスキャンが失敗し、該当するような事例がナレッジベースからも見つからない場合、サポート契約があればご支援が可能です。その場合、初期情報を纏めてお問い合わせください。