はじめに
インフォマティカが提供する CDGC(データガバナンス&カタログ) では Data Platform に関する多くのソースシステムに対してスキャナーが用意されています。もし、実際にどんなものがあるのだろう、と思われた方には [CDGC] ソース・システムのリストおよび対応機能 - Catalog Source Configuration の記事から一覧を確認頂けますので、参照頂ければ幸いです。
そして、UI やこちらを確認を頂きつつ、スキャンしてみたい対象が CDGC 側に対象製品が用意されていない、といったケースもあると思います。そのようなケースであっても、JDBC URL 形式でのアクセスが可能な JDBC Driver が提供されているならば、この JDBC タイプでのスキャンを実施する事でメタデータの取得が可能です。
この記事では CDGC にデフォルトのカタログソースではない Azure Cosmos DB のコア(SQL) API から JDBC タイプのリソースとしてスキャンを実施し、メタデータを取得してみたいと思います。
※2023/11月時点の情報を元にしています。
事前準備
JDBC でアクセスする先のソースシステムに応じた JDBC Driver を Secure Agent 配下に用意する必要があります。以下の各手順を順番に実施し、正常に接続可能かを確認してください。
1.使用する JDBC ドライバを取得する
今回、接続及びスキャンに使用する JDBC Driver に関しては CData 社様の JDBC Driver を使用させて頂きました。
2.取得した JDBC ドライバを Secure Agent 配下に配置する
取得したドライバを Secure Agent が使用できるように JDBC ドライバを配置する必要があります。なお、初回構成時には配置先のフォルダがない為、以下の手順でフォルダを作成し、配置してください。
cd <Secure Agent インストール先>/infaagent/ext/connectors/thirdparty
mkdir -p informatica.jdbc_v2/common
作成した common ディレクトリ内に今回使用する JDBC Driver を配置します。アップロードした JDBC Driver を利用するには Secure Agent を再起動する必要があります。
cd <Secure Agent インストール先>/infaagent/apps/agentcore
./infaagent.sh shutdown
./infaagent.sh startup
3.JDBC_V2 接続を作成する
CDGC で利用する JDBC_V2 接続を作成します。接続文字列等の設定は JDBC Driver ベンダーに依存しますので、各ベンダーのサイトを確認下さい。
今回のテストでは CData 社様の JDBC Driver を使用させて頂きました。
参考までに詳細を記載しておきますが、ドライバ名は cdata.jdbc.cosmosdb.CosmosDBDriverで、JDBC 接続文字列は jdbc:cosmosdb:AccountEndpoint=https://{アカウント名}.documents.azure.com:443;AccountKey={PRIMARY KEY} のような形式になります。
スキャン設定
JDBC タイプのスキャナの設定方法については ナレッジベース(KB) : HOW TO: Metadata Command Center で JDBC ドライバを使用してメタデータを抽出する方法 もしくは、英語になりますが、公式のドキュメント もありますので、もし詳細を確認されたい場合にはこちらも参照してみてください。では、早速スキャンの設定を実施してみましょう。
1.メニューから "メタデータコマンドセンター" を起動
メニューから "メタデータコマンドセンター" を選択します。
2.メタデータコマンドセンターから "新規" を選択
新しくカタログソースを設定する為、"新規"をクリックします。
3.カタログソースから "JDBC" を選択
カタログソースにリストされる一覧から "JDBC" を選択します。
4.Azure Cosmos DB への JDBC 接続を選択
Azure Cosmos DB への JDBC_V2 接続がリストされているはずですので、選択して "次へ" をクリックします。
5."メタデータの抽出" を設定
"メタデータの抽出" タブでランタイム環境から利用する Secure Agent を選択します。必要に応じてフィルタで絞り込みを実施し、"保存" をクリックします。
6."実行" でスキャンを開始
他にも設定項目はありますが、今回の記事のフォーカスポイントは設定し終わったので、"実行" をクリックし、スキャンを実行します。
7.実行スコープの設定
初回実行時、実行のスコープの画面で、"メタデータの抽出" はグレーアウトしています。2回目以降では下記の様に選択できる状態になっているかと思いますので、"削除" を指定しておきます。
このチェック項目がわかりにくい為、簡単に補足しておきます。この設定は既にカタログに取り込まれたアセットがソースシステム側で削除された場合にどう処理されるかを決定します。それぞれの設定に対して以下の様な動作となります。
オプション | 動作 |
---|---|
保持 | カタログソースからオブジェクトが削除されたり、フィルタ条件の変更でオブジェクトがヒットしなくなった場合でも、既にカタログ内に存在する変更前のアセットはカタログに保持されます。 |
削除 | カタログソースからオブジェクトが削除された場合及びフィルタ条件の変更でオブジェクトがヒットしない場合、メタデータがカタログから削除されます。 |
つまり、過去に一度でもアセットとして存在していたら残したい、という場合には"保持"を設定する必要がありますが、現在の最新のデータベース側の最新状態、フィルタ条件に応じたアセットを抽出、検索したい場合、"削除"を設定します。
8.ジョブ監視画面で結果を確認
ジョブ監視画面に自動で遷移するので、しばらく待ってステータスが完了した事を確認します。
結果の確認
Azure Cosmos DB 側には以下の様な JSON ドキュメントが入っていました。
{
"empno": 7900,
"ename": "JAMES",
"job": "CLERK",
"mgr": 7698,
"hiredate": "1981-03-12",
"sal": 950,
"deptno": 30,
"id": "6c3700ae-42c7-416e-a8a3-e53dadeb46e6",
"_rid": "7ZFPAKS1RQ0BAAAAAAAAAA==",
"_self": "dbs/7ZFPAA==/colls/7ZFPAKS1RQ0=/docs/7ZFPAKS1RQ0BAAAAAAAAAA==/",
"_etag": "\"e100f347-0000-2300-0000-654d9c920000\"",
"_attachments": "attachments/",
"_ts": 1699585170
}
CDGC 側より、上記の様な JSON ドキュメントの要素が抽出されている事が確認できますね。
参考文献
- マニュアル : Catalog Source Configuration - JDBC (ログインが必要)
- ナレッジベース(KB) : HOW TO: Metadata Command Center で JDBC ドライバを使用してメタデータを抽出する方法
おことわり(Disclaimer)
投稿する記事は私個人の見解であり所属する会社の公式な見解ではありません。
All articles I post onto Qiita are based on just my personal understanding or opinion. That means the articles are not expressed as an official opinion of the company I am belonging to or have belonged to.