株式会社NTTデータ Data & Intelligence事業部 の nttd-nagano です。
12月13日の記事 で、Informaticaのクラウドデータマネージメントプラットフォーム「Intelligent Data Management Cloud」(※1)をご紹介しましたが、今回は、そのIDMCのデータ統合サービスである「Cloud Data Integration」(※2)と、同社の旧来のデータ統合製品である「PowerCenter」を比べ、その違いをまとめてみました。
記事が長くなってしまったため、全4回に分割してご説明しております。
前回は第3回目として「マッピングを包む定義体とその実行方法や実行状況の確認方法の比較」「コマンドでの実行方法の比較」「パラメーターの比較」をご説明しました。
今回は第4回目として「バージョン管理方法の比較」「管理者作業の比較」「機能面での進化」をご説明します。
※1. 略称はIDMC。旧称はIICS。以下IDMCと記載。
※2. 以下CDIと記載。
「データ統合」というのは、ETL(※3)と呼ばれていたこともある領域の処理です。
※3. Extract、Transform、Loadの頭文字を取った言葉。これらはそれぞれ、連携元からのデータ抽出、データの変換・加工、連携先へのデータのロードを示します。
なお、IDMCにはCDIをはじめ様々なサービスがありますが、本記事はPowerCenterとの比較であるため、CDIのみにフォーカスしてご説明していきます。
バージョン管理方法の比較
- PowerCenterでは、チームベース開発オプションを購入している場合、バージョン管理をおこなうことができました 。
- 一方、CDIでは、バージョン管理サービスである「GitHub」または「Azure DevOps Git」を使用することができます。 詳細は 公式ドキュメントのOrganization管理のソース管理 および 公式ドキュメントのアセットの管理のソース管理 および 公式KB「FAQ: All about Source Control (Version Control) in IICS」 をご覧ください。
- PowerCenterクライアントでは、チームベース開発オプションでのバージョン管理のほかに、リポジトリオブジェクトをXMLファイルにエクスポートしたり、そのXMLファイルからリポジトリオブジェクトをインポートしたりできました。 そして、そのXMLファイルを外部のバージョン管理システムで管理することができました。
- 一方、CDIでも、アセットをZIPファイルにエクスポートしたり、そのZIPファイルからアセットをインポートすることができます。 詳細は、公式ドキュメントのアセットの管理 および 公式ドキュメントのREST API および 公式KB「IICS Asset Management CLI V2 Utility: Command Reference Guide」 をご覧ください。そして、そのZIPファイルを外部のバージョン管理システムで管理することができます。なお、インポート時には「プロジェクト」「接続」「ランタイム環境」を差し替えることができます。
管理者作業の比較(権限管理、コネクタ管理)
公式の動画「Administration - Users, Groups, and Permissions」および「Administration - Adding Connectors and Packages in IICS」をベースに筆者の解釈を交えて説明します。
- PowerCenterでは、Informatica Administratorを使って、管理者作業をしていました。
- 一方、CDIでは、アプリケーションピッカーで「管理者」をクリックすると、管理者作業をすることができます。 例:「Organizationの設定」「ライセンスの管理」「SAML認証の設定」「IPU(Informatica Processing Units。前払いで購入したIDMC用のクレジット)の使用状況の確認」「ソース管理の設定」「ユーザーの管理」「ユーザーグループの管理」「ロール管理」「ランタイム環境(Agent)の管理」「サーバレス環境」「接続の管理」「アドオンコネクタの管理」「イベント確認(ログイン履歴など)」
- 「管理者」画面の詳細は、 公式ドキュメントをご覧ください。(Organization管理 、 ユーザー管理 、 ランタイム環境)
- ここでは、上記のうち、「ユーザー管理」「ロール管理」「SAML認証の設定」「アドオンコネクタの管理」についてご説明します。
- 「ユーザー」は、Organizationへのセキュアアクセスを許可された個人のCDIのアカウントです。
- 「ユーザー」は、割り当てられた「ロール」(特権を管理する定義体)に基づいてタスクを実行したり、アセットにアクセスしたりできます。
- 「ロール」はユーザーに直接割り当てることもできますし、ユーザーグループに割り当てることもできます。
- さらに、IDMC専用のユーザーでログインするのではなく、サードパーティのアイデンティティプロバイダー使ってSAML認証するための設定もあります。 詳細は、公式ドキュメント をご覧ください。
- さて、PowerCenterでは、新しいコネクタを追加したい場合、まずInformaticaのアカウントチームに連絡してリクエストを作成する必要がありました。承認されると、一時的なライセンスキーとソフトウェアをダウンロードするための情報が送られてきました。そして、コネクタを手作業でPowerCenter環境にインストールする必要がありました。
- 一方、CDIでは、セルフサービスで新しいコネクタを試すことができます。
- まず、CDIにログインして、アプリケーションピッカーで「管理者」を選びます。次に、画面左の「アドオンコネクタ」をクリックしします。セルフサービスで試用できる様々なコネクタの一覧が表示されます。「無料トライアルを開始する」ボタンをクリックすると、CDIは自動的にダウンロードを開始し、ソフトウェアをインストールします。選択したコネクタにもよりますが、これには最大30分かかります。
- インストールが完了したら、画面左にて「接続」をクリックすると、新しいコネクタが自動的に利用可能になっています。
- コネクタの使用方法の詳細は、 公式ドキュメント をご覧ください。
機能面での進化
公式の動画「CDI Functionality」をベースに筆者の解釈を交えて説明します。
- 使い勝手がよくなった
-
「同期タスク」
連携元と連携先でデータを同期するためのタスクです。マッピングタスクを作る際はマッピングデザイナーを操作する必要がありましたが、同期タスクを作る際はウィザード形式でより簡単に作れます。同期タスクの詳細は、 公式ドキュメント をご覧ください。 -
「データプレビュー」
マッピングの任意のトランスフォーメーションの時点でのデータをプレビューできる機能です。PowerCenterのデバッガ でやっていたようなことができます。データプレビューの詳細は、 公式ドキュメント をご覧ください。
-
「同期タスク」
- モダンな統合ユースケースに対する包括的な支援機能がある
- クラウドデプロイへ最適化されている
-
クラウドデータウェアハウスへのプッシュダウン
Snowflake 、AWS Redshift 、Azure Synapse Analytics 、Google Cloud BigQuery などにプッシュダウンすることができます。これを適用すると、CDIはマッピング処理をSQLクエリに変換し、そのSQLクエリをクラウドデータウェアハウス側に送信します。SQLクエリはクラウドデータウェアハウスで実行されます。マッピングのターゲットに対して適用した場合、伝統的なETL処理(Extract-Transformation-Load)ではなく、モダンなELT処理(Extract-Load-Transformation)となり、効率よく処理できます。 この機能はマッピングタスクの「詳細セッションプロパティ」で設定できます。プッシュダウン最適化の詳細は、各コネクタ毎に公式ドキュメントをご覧ください。たとえば、Snowflakeであれば、 こちら です。 -
Advanced Serverless
従来のSeucre Agentはオンプレやクラウドのマシンにインストールするものでしたが、完全にInformaticaのネットワーク上のマシンにホストされたAgentを使うこともできます。「管理者」の「サーバレス環境」で設定できます。詳細は、 公式ドキュメント をご覧ください。
-
クラウドデータウェアハウスへのプッシュダウン
おわりに
以上、「PowerCenterとCDIの違いをまとめてみた」の第4回目でした。
全4回に渡ってお送りしてきた「PowerCenterとCDIの違い」ですが、いかがでしたでしょうか。
差異はありつつも、劣化ではなく、進化していることが分かっていただけたかと思います。
PowerCenterはすでに新規の販売を終了しています。
いずれ保守期限を迎えますので、Cloud Data Integrationへの乗り換えをご検討ください。
CDIのCDIは30日間の無料体験ができる ので、この機会に試してみてはいかがでしょうか。
なお、PowerCenterの既存の定義体をCloud Data Integrationへマイグレーションするノウハウ・サービスもあり、弊社がお取次ぎできます。 こちら からお問い合わせください。
CDIには今回ご紹介したCDIの他にも、API統合、マスターデータ管理、データガバナンス関連など様々なサービスがあります。
これらについても、今後、当Organization の記事でご紹介していく予定ですので、ご興味がございましたらご覧ください。
仲間募集中!
NTTデータ Data&Intelligence事業部 では、以下の職種を募集しています。
1. 「クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア)」の募集
クラウド/プラットフォーム技術の知見に基づき、ITアーキテクトまたはPMとして、DWH、BI、ETL領域における、ソリューション開発の推進や、コンサルティング工程のシステムグランドデザイン策定時におけるアーキテクト観点からの検討を行う人材を募集しています。2. AI/データ活用を実践する「クラウド・ソリューションアーキテクト」
AI/データ活用を実践する「クラウド・ソリューションアーキテクト」として、クラウド先進テクノロジーを積極活用し、お客様のビジネス価値創出活動を実践。AI/データ活用の基本構想立案コンサルティングからクラウドプラットフォーム提供・活用を支援しています。お客様のAI・データ活用を支援するクラウド・ソリューション提案、アーキテクチャ設計・構築・継続活用支援(フルマネージドサービス提供)、および最新クラウドサービスに関する調査・検証で、クラウド分析基盤ソリューションのメニュー拡充を実施する人材を募集します。また、取り扱う主なソリューションについては、以下のページも参照ください。
ソリューション紹介
1. NTTデータとInformaticaについて
データ連携や処理方式を専門領域として10年以上取り組んできたプロ集団であるNTTデータは、データマネジメント領域でグローバルでの高い評価を得ているInformatica社とパートナーシップを結び、サービス強化を推進しています。2. Trusted Data Foundationについて
~データ資産を分析活用するための環境をオールインワンで提供するソリューション~https://enterprise-aiiot.nttdata.com/tdf/
最新のクラウド技術を採用して弊社が独自に設計したリファレンスアーキテクチャ(Datalake+DWH+AI/BI)を顧客要件に合わせてカスタマイズして提供します。
可視化、機械学習、DeepLearningなどデータ資産を分析活用するための環境がオールインワンで用意されており、これまでとは別次元の量と質のデータを用いてアジリティ高くDX推進を実現できます。