はじめに
Informatica Intelligent Data Management Cloud(IDMC/旧称IICS)でのちょっとしたTipsを纏めていきます。日々の活動の中で検証した結果記録であり、忘れやすい自分のためのメモですが、少しでも皆様のお役に立てればと思い公開していきます。記述方法など試行錯誤しており随時更新するかもしれません。
アプリケーションデータをDWHへコピー・レプリケートする
SAPやSalesforceのデータを活用する為にDatalakeやDWHへコピーしたいという場合、Informaticaの機能で簡単に実装出来ます。今回はMarketoのデータを”CDIR - Cloud Data Ingestion and Replication(旧名 Mass Ingestion)"を利用して簡単に実装してみます。
事前準備
利用するアプリケーションへの接続(コネクタ)を事前に設定しておきます。今回はデータ取得元(ソース)となるMarketo V3コネクタを設定しておきました。
管理者->接続
またデータ投入先(ターゲット)のSnowflake Data Cloudコネクタも設定済みです。
Cloud Data Ingestion and Replication Applicationでタスクを設定する
では早速レプリケーションのタスクを設定しましょう。
今回はMarketoのスマートキャンペーンのデータをSnowflakeへレプリケーションします。
初期ロードで全件レプリケーションした後、更新データがあれば定期的に差分レプリケーションを実施する「初期+増分」ロードの設定でタスクを作成します。
データ統合 に移動し、画面左に見える”取り込み”->”アプリケーション取り込みおよびレプリケーションタスク”をクリックします。
ご覧の通り4ステップで設定完了です。順に設定していきます。
-
ステップ1:”定義”
名前:タスクの名称 わかりやすい名称を設定します
プロジェクト:このタスクを保存するプロジェクトを選択
ランタイム環境:このタスクを実行するSecureAgentを選択
ロードタイプ:今回は「初期ロードと増分ロード」を選択 -
ステップ2:”ソース”
その1:上段部
接続:事前に設定済みのMarketo V3コネクタ設定を選択
オブジェクトルール:抽出対象とするMarketo側のオブジェクトを絞り込む条件。デフォルトのまま *(すべて) を含む設定でOK
->この設定で一度「ルールの適用」をクリックし、対象のテーブルをリストします。
その2:下段部
ソースオブジェクト:右側↓▼をクリックして展開した後、抽出対象となるオブジェクトを選択します。今回はSmartCampaignのみを選択し、他はチェックを外しておきます。
詳細:右側↓▼をクリックして展開したあと、差分連携(Change Data Capture)間隔を設定します。今回はデフォルトのまま 5分間隔としておきます。 -
ステップ3:”ターゲット”
その1:上段部
接続:事前に設定済みのSnowflake Data Cloudコネクタ設定を選択
スキーマ:Snowflakeのスキーマを選択
他はデフォルトでOK。
その2:下段部
(オプション)最終レプリケート時刻を追加:ターゲット側にデータがレプリケートされた時刻を記録する新規列を追加します。差分連携時のデータ判断に利用出来たり便利なのでチェックしておきます。
(オプション)Superpipe:Snowflakeの機能 Snowpipe Streamingを利用する場合はチェックします。この環境では諸般の理由によりSuperpipeが利用出来ないため泣く泣くチェックを外します。。
Superpipeについては @nttd-nagano 様の以下の記事に詳細が御座います。是非ご覧下さい。
Informaticaのクラウドを使ってSQL ServerからSnowflakeにリアルタイムで増分ロードしてみた
その3:上段部2回目
Superpipeを利用しない場合、ステージングの場所を指定する必要があるため設定します。既にあるステージング領域を指定してもよいですし、存在しない名称を指定した場合は自動的に作成されます。
ここでは任意の名称として”RepMarketoSmartCampaign”と設定しました。
-
ステップ4:”スケジュール及びランタイムオプション”
今回は手動で起動する予定でありスケジュール設定しない為、デフォルトのままでOK。このまま「保存」します。緑色のダイアログで正常に保存されたことを確認します。
Cloud Data Ingestion and Replication Applicationタスクを実行(起動)する
デプロイが完了したらタスクを実行しましょう。
実行・監視はオペレーションインサイトから行います。
オペレーションインサイト に移動し、左側メニューから”データ取り込みおよびレプリケーション”をクリックします。
すべてのジョブ タブをクリックすると、先ほどデプロイしたアプリケーション取込タスクがデプロイされています。
一番右端のメニューから”実行”をクリックすれば実行が開始されます。
ジョブ名のリンクをクリックし、タスクサマリ画面へ移動しましょう。
キューへ格納 -> 開始 -> 実行中 と変化していきます。
画面下部では、現在どのような処理で何件レプリケーションされたかが表示されます。
上記はまず初期ロード(アンロード)で1357件処理が実施された事が分かります。
その後、Marketo側で新しいスマートキャンペーンが設定されたり、更新された場合、自動で差分データを取得して反映します。
以上で設定から実行まで、慣れれば10分もかからず実施可能となります。
補足:Snowflake側で確認
まとめ
IDMCは単なるETLツールでは無く、上記のようなWizard形式による簡単レプリケーションも実装できます。簡単ですが以上です。
検索用
Informatica / IDMC / Intelligent Data Management Cloud / IICS / Data Integration / CDI / CMI / CDIR / Mass Ingestion / CDQ / CDP / Profiling / CDGC / CDMP / CLAIRE / AI / SecureAgent / ランタイム / マスインジェスチョン / マルケト / Marketo / Snowflake