この記事は インフォマティカ Advent Calendar 2023 Day 7 の記事として書かれています。
はじめに
インフォマティカが提供する CDGC(データガバナンス&カタログ) では Data Platform に関する多くのソースシステムに対してスキャナーが用意されています。もし、実際にどんなものがあるのだろう、と思われた方には [CDGC] ソース・システムのリストおよび対応機能 - Catalog Source Configuration の記事から一覧を確認頂けますので、参照頂ければ幸いです。
この記事では、ETL製品であるTalend Data Integration SoucesをCDGCでスキャンする方法についてご紹介いたします。
※2023/12月時点の情報を元にしています。
事前準備
1. 権限の確認
Talend管理者が以下のタスクを実行していることを確認します:
Talend Data Integrationソースシステムにアクセスするためのユーザーアカウントを作成します。
そのユーザーがファイル権限に従ってTalendプロジェクトファイルを読み取れることを確認します。
Talend Data Integrationソースシステムのサブスクリプションバージョンからプロジェクトファイルをエクスポートするためのアクセスと権限を付与します。
2. Talendプロジェクトのエクスポート
カタログソースを構成する前に、Talend Data Integrationソースからメタデータ抽出用のTalendプロジェクトをエクスポートする必要があります。
Secure Agent がインストールされているマシンに Talend プロジェクトファイルをコピーします。カタログソースを構成するときに、メタデータ抽出用にエクスポートされたTalendプロジェクトが含まれるディレクトリへのパスを指定します。
Informatica Intelligent Cloud ServicesのAdministrator画面で接続を作成する必要はありません。
実際にスキャンを行う前に、CDGCにおいてサポートされるTalendのオブジェクトについてサポートへご確認いただくようお願いいたします。
スキャン設定
-
Informatica Intelligent Cloud Services にログインします。
[マイサービス] ページが表示されます。 -
[メタデータコマンドセンター] をクリックします。
次の図は、[マイサービス] ページの [メタデータコマンドセンター] を示しています。
-
左のメニューから[新規]をクリックします。
左のリストから[カタログソース]を選択します。
ソースシステムのリストからTalend Data Integrationを選択します。
画像は、Talend Data Integrationカタログソースが選択された状態を表しています。
-
[作成]をクリックします。
次の図は、Talend Data Integrationの登録情報を示しています。
この画像は、[全体的な情報]セクションと[接続情報]セクションを持つTalend Data Integration登録タブを示しています。
-
[全般的な情報]セクションに、カタログソースの名前と説明を入力します。
カタログソースを作成した後、名前を変更することはできません。
接続情報エリアでは、エクスポートディレクトリプロパティで、メタデータ抽出用にエクスポートされたTalendプロジェクトを含むディレクトリへのパスを構成します。 -
[接続とランタイム]セクションで、カタログソースジョブを実行する Secure Agent グループを選択します。
メタデータ変更オプションを使用して、カタログのソースから削除されたオブジェクトを保持するか削除するかを選択します。
- 保持
カタログ内のソースから削除されたオブジェクトを保持します。フィルタを更新または追加すると、カタログは前のジョブから抽出されたオブジェクトを保持し、現在のフィルタに一致するオブジェクトを追加抽出します。ソースから削除されたオブジェクトはカタログから削除されません。削除されたオブジェクトとリレーションシップに追加されたエンリッチメントは保持されます。 - 削除
ソースから削除されたオブジェクトとフィルタに加えた変更に基づいて、カタログからメタデータを削除します。削除されたオブジェクトおよびリレーションシップに追加されたエンリッチメントも永久に失われます。ソースで名前が変更されたオブジェクトは削除され、カタログで再作成されます。
フィルタなどの詳細パラメータの説明については、必要に応じてマニュアルをご確認ください。
最後に、[保存]をクリックした後、[実行]をクリックしてスキャンを実施します。
上記の手順5.で指定するディレクトリは、Secure AgentをインストールしたOS上で、TalendのプロジェクトをExportしたzipファイルを解凍した後、talend.projectファイルが存在するディレクトリのフルパスを指定します。
結果の確認
[メタデータコマンドセンター]でジョブを実行した後、[データガバナンスとデータカタログ]で結果を表示します。ソースシステムのコンテンツの詳細を階層表示で確認したり、データの系統を追跡したりできます。
-
Informatica Intelligent Cloud Services にログインします。
[マイサービス] ページが表示されます。 -
[データガバナンスとデータカタログ]をクリックします。
次の図は、[データガバナンスとデータカタログ]が選択されている[マイサービス]ページを示します。
-
[データガバナンスとデータカタログ]ホームページで、[参照] > [データカタログ] とクリックし、作成したTalend Data Integrationのリソースをクリックします。
この画像は、ドキュメントに記載されているTalend Data Integrationのサンプルです。
-
次にデータリネージュを確認します。
ソースまたはターゲットレベルでのリネージュ図には、データアセットがどのようにソースを参照し、使用し ているかが示されています。
ソースまたはターゲットレベルでのデータリネージュを表示するには、アセットを検索して開き、[リネージュ] タブをクリックします。
次の図は、tDBInput_1 サブジョブが、接続割り当ての前に、CUSTOMER 参照ソーステーブルのデータを使用して customer_tgt_h2l 参照ターゲットテーブルへの出力を生成する様子を示しています。
リネージュ図はCUSTOMER参照ソーステーブルから始まり、Talend Data IntegrationソースシステムのtDBInput_1サブジョブを使用してデータを変換し、customer_tgt_h2l参照ターゲットテーブルへの出力を生成します。画像は、接続割り当て前の参照オブジェクトを表しています。
次の画像は、tDBInput_1サブジョブがCUSTOMERソーステーブルのデータを使用して、2つのOracleソースシステムへの接続割り当て後にcustomer_tgt_h2lターゲットテーブルへの出力を生成する様子を示しています:
これらの画像は、ドキュメントに記載されているリネージュのサンプルです。
参考文献
おことわり(Disclaimer)
投稿する記事は私個人の見解であり所属する会社の公式な見解ではありません。
All articles I post onto Qiita are based on just my personal understanding or opinion. That means the articles are not expressed as an official opinion of the company I am belonging to or have belonged to.