本記事では Informatica Intelligent Cloud Services のデータ統合処理で利用するサーバレスを含む 「ランタイム環境」についてご紹介します
#はじめに
Informatica Intelligent Cloud Services (IICS) はデータ統合やAPI開発などをクラウドサービスとして利用できるエンタープライズ iPaaS (integration Platform as a Service) です。
参考: 「概説 インフォマティカ・データマネジメントプラットフォーム - Qiita」
しかし、すべてをクラウドサービスのみで実現すると不安なこともあります。
- 大切なデータがクラウドに流れてしまって良いのか
- オンプレミス内のデータ統合なのにいったんクラウドを経由するとパフォーマンスが悪そう
そこで IICS ではデータの抽出や変換処理などのデータ統合ジョブを実行するインスタンスを「ランタイム環境」として、ユーザーのネットワーク(クラウド含む)に構築したり、サーバレスとしてインフォマティカ側の環境を利用できるなどのハイブリッド型のアーキテクチャを採用しています。
#ランタイム環境
IICSではランタイム環境が実データを処理します。ランタイム環境はアーキテクチャや管理主体によって、次の4つから選択・利用できます。
- Cloud Data Integration
- ユーザーが管理するネットワーク(オンプレミス/クラウド)にSecure Agentというインスタンスを構築します。
- IICSを利用する上で一番スタンダードなランタイム環境となります。
- Cloud Data Integration Elastic
- ユーザーが管理するAWS, Azure, GCS上のSparkエンジンでクラスタジョブを実行します。
- ワークロードのサイズによってスケールアップあるいはスケールダウンを自動的制御します。
- Advanced Serverless - Cloud Data Integration
- インフォマティカの管理するネットワーク上でCloud Data Integration (Secure Agent) を動作させます。
- AWS環境のみサポートしており(2021.12.1現在)、ユーザーとインフォマティカのVPCを接続して各システムにアクセスします。
- Advanced Serverless - Cloud Data Integration Elastic
- インフォマティカの管理するネットワーク上でCloud Data Integration Elasticを動作させます。
- AWS環境のみサポートしており(2021.12.1現在)、ユーザーとインフォマティカのVPCを接続して各システムにアクセスします。
それぞれのランタイム環境で利用できるサービスやコネクタは異なります。
詳しくは Product Availability Matrix (PAM)※1を確認してください。
##Cloud Data Integration
IICSで一番多く利用されているランタイム環境です。
ユーザーが管理するオンプレミスやクラウドのネットワーク上のサーバ(WindowsあるいはLinux)にSecure Agentをインストールします。
スケールアップやスケールアウト、OSやハードウェアのメンテナンスはユーザー側で行います。
Secure Agnetをオンプレミスに構築することにより、オンプレミス内のシステム間のデータ統合も容易に行えます。
##Cloud Data Integration Elastic
ユーザーが管理するAWS, Azure, GCP上のSparkクラスタでデータ統合ジョブ(エラスティックジョブ)を実行します。
インフォマティカのAIエンジンであるCLAIREが最適なジョブのパフォーマンスを引き出すために、機械学習を使用してクラスタで実行されるジョブを自動的に調整します※2。
CLoud Data LakeやCloud Data Warehouseのデータ統合での利用となり、接続先のシステムも限定されています。
エラスティックジョブを管理するためSecure Agentが必要となります。
##Advanced Serverless - Cloud Data Integration
インフォマティカのネットワーク上でホストされたSecure Agentを利用してデータ統合ジョブを実行します
Advances Serverlessのランタイム環境はインフォマティカのAmazon Virtual Private Cloud (VPC) にホストされ、ユーザーのネットワークとはエラスティックネットワークインタフェース (ENI) を作成して接続します。
##Advanced Serverless - Cloud Data Integration Elastic
インフォマティカのネットワーク上でホストされたSparkクラスタを利用してデータ統合のエラスティックジョブを実行します
#データ変換部品(トランスフォーメーション)の違い
Cloud Data IntegrationとCloud Data Integration Elasticではデータ統合処理(マッピング)内で利用できる変換部品(トランスフォーメーション)が異なります。
Advanced Serverlessはそれぞれのトランスフォーメーションが利用できます。
#まとめ
IICSではセキュリティ要件やパフォーマンス、メンテナンス性などを踏まえてデータ統合ジョブを実行するランタイム環境を柔軟に選択することができます。
それぞれの特徴をまとめてみましたので、参考にしてください。
※1 インフォマティカ製品が対応するミドルウェアや接続先システムなどはProduct Availability Matrix (PAM) でご確認いただけます。
概説 インフォマティカ・データマネジメントプラットフォーム - Product Availability Matrix