株式会社NTTデータ Data & Intelligence事業部 の nttd-nagano です。
12月13日の記事 で、Informaticaのクラウドデータマネージメントプラットフォーム「Intelligent Data Management Cloud」(※1)をご紹介しましたが、今回は、そのIDMCのデータ統合サービスである「Cloud Data Integration」(※2)と、同社の旧来のデータ統合製品である「PowerCenter」を比べ、その違いをまとめてみました。
記事が長くなってしまったため、全4回に分割してご説明しております。
前回は第1回目として「まとめのまとめ」「差異の概要」「コンポーネントレベルでの比較」をご説明しました。
今回は第2回目として「ソースやターゲットの設定方法の比較」「トランスフォーメーションの種類や使用方法の比較」「トランスフォーメーション間の接続の方法の比較」をご説明します。
※1. 略称はIDMC。旧称はIICS。以下IDMCと記載。
※2. 以下CDIと記載。
「データ統合」というのは、ETL(※3)と呼ばれていたこともある領域の処理です。
※3. Extract、Transform、Loadの頭文字を取った言葉。これらはそれぞれ、連携元からのデータ抽出、データの変換・加工、連携先へのデータのロードを示します。
なお、IDMCにはCDIをはじめ様々なサービスがありますが、本記事はPowerCenterとの比較であるため、CDIのみにフォーカスしてご説明していきます。
ソースやターゲットの設定方法の比較
公式の動画「IICS for PowerCenter Developers: Building a Mapping - No Source Qualifier?」をベースに筆者の解釈を交えて説明します。
- PowerCenterでは、PowerCenter DesignerのSource Analyzerにてソースをインポートし、Target Designerにてターゲットをインポートあるいは作成していました。
- 一方、CDIでは、マッピングを作る前のこれらの初期操作は不要です。その代わりに、マッピングを作るウィザードの中でソースとターゲットを選択することができます。
- さて、CDIでマッピングを作ると、自動的にソースとターゲットが1個ずつ配置されます。PowerCenterに慣れている方はマッピング内にSource Qualifier(略称はSQ。ソース修飾子)がないこと、また、画面左のトランスフォーメーション一覧内にもSQトランスフォーメーションがないことに気づくと思います。
- PowerCenterのSource Qualifierで設定していたような項目は、CDIでは、ソーストランスフォーメーションで設定できます。
- CDIのソーストランスフォーメーションでは、まずはじめにソース側の「接続」を選びます。 この「接続」は、PowerCenterでの「接続」に相当します。「接続」の詳細は、 公式ドキュメント をご覧ください。
- 次に「ソースタイプ」にて「単一オブジェクト」または「複数のオブジェクト」または「クエリ」を選びます。
- PowerCenterのSource Qualifierの「ソースフィルタ」で設定していたフィルタ条件は、CDIではソーストランスフォーメーションの「クエリオプション」で設定します。
- PowerCenterのSource Qualifierの「Pre SQL」や「Post SQL」で設定していたSQLクエリは、CDIではソーストランスフォーメーションの「アドバンスプロパティ」で設定します。
- PowerCenterでやっていたマルチソースの結合やSQLオーバーライドも、CDIではソーストランスフォーメーションで設定できます。
- ソーストランスフォーメーションの詳細は、 公式ドキュメント をご覧ください。
- CDIのターゲットの設定方法はソースの設定方法とほぼ同様です。
- ターゲットトランスフォーメーションの詳細は、 公式ドキュメント をご覧ください。
トランスフォーメーションの種類や使用方法の比較
公式の動画「IICS for PowerCenter Developers: Similarities and Differences in Mapping Transformations」をベースに筆者の解釈を交えて説明します。
- CDIのマッピングデザイナーを開くと、画面左に、PowerCenterで使っていたようなトランスフォーメーションがあります。 使用感も非常に似ています。
- たとえば、式トランスフォーメーションについて比較してみます。CDIでマッピングに追加すると、「式」タブで新しいフィールドを作れます。これが、PowerCenterの式トランスフォーメーションでいうところの出力ポートに相当する設定です。使える関数の一覧もPowerCenterと同一です。
- 次に、アップデートストラテジーについて比較してみます。CDIではアップデートストラテジーというトランスフォーメーションはありません。代わりに、ターゲットトランスフォーメーションの「操作」を「Data Driven」に設定すると実現できます。
- クレンジング、データマスキング、階層データの取り扱いなど、PowerCenterで見慣れた機能の中には、CDIではトランスフォーメーションとして実装されているものもあります。
- トランスフォーメーションの詳細は、 公式ドキュメント をご覧ください。
トランスフォーメーション間の接続の方法の比較
公式の動画「IICS for PowerCenter Developers: Building a Mapping - No Ports?」をベースに筆者の解釈を交えて説明します。
- PowerCenterのマッピングでは、トランスフォーメーション内に「ポート」があり、他のトランスフォーメーションの「ポート」と接続していました。
- 一方、CDIにはトランスフォーメーションの「ポート」という概念がありません。
- その代わりに、CDIでは「フィールドルール」と「フィールドマッピング」を使います。
- まず、CDIでは下流側のトランスフォーメーションの「受信フィールド」の下に、「フィールドルール」という項目があります。デフォルトでは上流側のトランスフォーメーションのすべてのフィールドを引き継ぎ、下流側のトランスフォーメーションの入力側のフィールドとするための初期ルールが作成されます。 引き継ぎたくないフィールドがある場合は、様々な方法で絞り込むことができます。
- 次に、CDIでは下流側のトランスフォーメーションに「フィールドマッピング」という項目があります。入力側フィールド(「受信フィールド」)の各フィールドを出力側フィールド(「ターゲットフィールド」)の各フィールドに紐づけるためには、「受信フィールド」側の各フィールドを「ターゲットフィールド」側の各フィールドへドラッグアンドドロップします。 あるいはPowerCenterにあったようなオートリンク機能もCDIにあります。
- PowerCenterのトランスフォーメーションの「ポート」は静的でした。一方、CDIの「フィールドルール」は動的に作用します。そこに利点があります。というのも、PowerCenterでは上流のトランスフォーメーションに新しい「ポート」を追加するたびに、下流のトランスフォーメーションにも「ポート」を追加していく必要がありました。CDIではその必要がないからです。
- トランスフォーメーション間の接続方法の詳細は、 公式ドキュメント をご覧ください。
おわりに
以上、「PowerCenterとCDIの違いをまとめてみた」の第2回目でした。
次回の第3回目は、「マッピングを包む定義体とその実行方法や実行状況の確認方法の比較」「コマンドでの実行方法の比較」「パラメーターの比較」をご説明します。
※.2022.12.21追記:第3回目を投稿しました。 → Informatica PowerCenterとCloud Data Integrationの違いをまとめてみた(第3回/全4回)
IDMCのCDIは30日間の無料体験ができる ので、この機会に試してみてはいかがでしょうか。
IDMCには今回ご紹介したCDIの他にも、API統合、マスターデータ管理、データガバナンス関連など様々なサービスがあります。
これらについても、今後、当Organization の記事でご紹介していく予定ですので、ご興味がございましたらご覧ください。
仲間募集中!
NTTデータ Data&Intelligence事業部 では、以下の職種を募集しています。
1. 「クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア)」の募集
クラウド/プラットフォーム技術の知見に基づき、ITアーキテクトまたはPMとして、DWH、BI、ETL領域における、ソリューション開発の推進や、コンサルティング工程のシステムグランドデザイン策定時におけるアーキテクト観点からの検討を行う人材を募集しています。2. AI/データ活用を実践する「クラウド・ソリューションアーキテクト」
AI/データ活用を実践する「クラウド・ソリューションアーキテクト」として、クラウド先進テクノロジーを積極活用し、お客様のビジネス価値創出活動を実践。AI/データ活用の基本構想立案コンサルティングからクラウドプラットフォーム提供・活用を支援しています。お客様のAI・データ活用を支援するクラウド・ソリューション提案、アーキテクチャ設計・構築・継続活用支援(フルマネージドサービス提供)、および最新クラウドサービスに関する調査・検証で、クラウド分析基盤ソリューションのメニュー拡充を実施する人材を募集します。また、取り扱う主なソリューションについては、以下のページも参照ください。
ソリューション紹介
1. NTTデータとInformaticaについて
データ連携や処理方式を専門領域として10年以上取り組んできたプロ集団であるNTTデータは、データマネジメント領域でグローバルでの高い評価を得ているInformatica社とパートナーシップを結び、サービス強化を推進しています。2. Trusted Data Foundationについて
~データ資産を分析活用するための環境をオールインワンで提供するソリューション~https://enterprise-aiiot.nttdata.com/tdf/
最新のクラウド技術を採用して弊社が独自に設計したリファレンスアーキテクチャ(Datalake+DWH+AI/BI)を顧客要件に合わせてカスタマイズして提供します。
可視化、機械学習、DeepLearningなどデータ資産を分析活用するための環境がオールインワンで用意されており、これまでとは別次元の量と質のデータを用いてアジリティ高くDX推進を実現できます。