はじめに
インフォマティカが提供する、 CDGC(データガバナンス&カタログ)において、2023年11月にリリースされたバージョンの内容について記載します。
※2023/11時点の情報を元にしています。
プレビューから正式リリースに移行
以下の3つのカタログ・ソースが、プレビュー(ベータ版)から正式リリースに移行しました。
- AWS Glue
- Microsoft Purview
- Apache Atlas
また、Microsoft Excelからメタデータ取得についても、同様に正式リリースに移行しました。
Excelメタデータ取得の詳細な機能については、こちらのブログを参照下さい。
弊社データカタログのコンセプトに「Catalog of Catalogs」(カタログのカタログになる!)と言うのがありますが、まさにそれを実現すべく、他社のカタログも含めた包括的なガバナンスとカタログになるべく進化しています。
プレビューのリリース
IDMC metadata
データ統合タスクのメタデータを、ほぼリアルタイムに同期できます。
今までのように、Informatica Intelligent Cloud Services カタログ・ソースを構成する必要がなく、この設定をするだけで、アセット概要、階層、リネージ、関係者、参照元システムなど、タスク アセットに関連する詳細を表示できます。
事前設定等の詳細は、こちらのマニュアルをご覧ください
Oracle Cloud Infrastructure GoldenGateカタログ・ソース
Oracle社のOracle Cloud Infrastructure GoldenGateは、企業内でコミットされたトランザクション・データのロード、分散、フィルタリングを行い、データベース間の移行を可能にするデータ・レプリケーション・ツールです。また、トランザクション・データ操作言語(DML)操作とデータ定義言語(DDL)変更の継続的な抽出とレプリケーションを実行して、ソース・データとターゲット・データの一貫性を保つことができます。
CDGCでは、Oracle Cloud Infrastructure GoldenGateデプロイメントからメタデータを抽出する事ができます。
プレビュー機能は評価目的でサポートされていますが、本番環境または本番環境への移行を予定している環境ではサポートされていません。Informatica は、本番環境向けの次期リリースにプレビュー機能を含める予定ですが、市場や技術状況の変化に応じて、プレビュー機能を含めない場合もあります。
拡張されたカタログ・ソース
私感ですが、この中では Microsoft Power BIのデータフローなどは、以前から要望が多かったですね。
-
Amazon Athena
サーバーレス実行環境上でメタデータ抽出タスクを実行できます。サーバーレス実行環境は、セキュアエージェントまたはセキュアエージェントグループのダウンロード、インストール、設定、および保守を必要としない、高度なサーバーレス展開ソリューションです。 -
Apache Atlas
このリリースでは、カタログ・ソースに以下の機能強化が加えられています:
HBase Namespace オブジェクトタイプでメタデータをフィルタリングできます。
接続タイムアウトと並列リネージフェッチカウントを設定できます。 -
Databricks
このリリースには、カタログ・ソースに以下の機能強化が含まれています:
Databricks Unityカタログでプロファイルを実行できます。
データ・プロファイリング・タスクを構成する際に、サンプリング方法としてカスタム・クエリを使用できます。
万能クラスタに加えて SQL Warehouse から Databricks メタデータを抽出できます。
ファイルシステム
データプロファイリングを実行して、抽出されたメタデータから統計、パターン、データタイプを収集できます。 -
Google BigQuery
このリリースでは、カタログ・ソースに以下の機能強化が含まれています:
複数のプロジェクトからメタデータを抽出できます。
ストアドプロシージャおよびユーザー定義関数(UDF)からメタデータを抽出できます。
特定の条件(テーブル、ビュー、ストアド プロシージャなど)でメタデータをフィルタリングできます。
ビュー オブジェクト タイプでプロファイルを実行できます。 -
Microsoft Power BI
以下のオブジェクトからメタデータを抽出できます:
データフロー
ページ分割されたレポート
Power Query カスタム関数によって生成されたレポート -
セールスフォース
リレーションシップディスカバリを構成して、フィールドとオブジェクト間のリレーションシップを識別できます。 -
SAP BusinessObjects
SAP BusinessObjects universe レポートからクラス、ディメンジョン、および universe モデルを抽出できます。
拡張子ベースのファイル タイプの検出と階層構造の抽出
お待たせしました、XMLと階層構造(入れ子)にも対応しました。
階層ファイルからグループまたはリーフ要素を抽出する事ができます。
以下のファイル タイプの階層ファイルからグループ要素を抽出できます:
- AVRO : 階層ファイルと階層フィールドを抽出してグループ化します。
- Parquet : 階層ファイルおよび階層フィールドを抽出し、グループ化します。
- XML : 要素と属性を抽出してグループ化します。XML ファイル・タイプの場合、階層内の 1 つの要素内に最大 1000 要素の深さが許容されます。
- XSD : 要素と属性を抽出してグループ化します。
以下のファイル拡張子において、ファイル内容の解析によってファイルタイプを検出する事ができるようになりました。
- CSV
- TSV
- TXT
- XML