この記事は インフォマティカ Advent Calender 2022 Day 4 の記事として書かれています。
はじめに
皆様、Mass Ingestion活用していますか?
この記事では、IICSのMass Ingestionを改めて強力にPush!していきたいと思います。この記事を最後まで読んで頂けたらMass Ingestionを使いたくなる事間違い無しです。
Mass Ingestionとは?
IICSの一つの機能であるMass Ingestionは以下のような特徴があります。使わないのはもったいないですよ!
1.データ投入ジョブをわずか2,3分で作成出来ます
シンプルで簡単な4~5ステップのウィザードを利用して、あっという間にデータ投入ジョブを作成出来ます!
2.複雑な設定は不要
デフォルトで4種類のデータ取込機能が用意されています。データベースはもちろん、SAPやSFDC等の各種アプリケーション、ファイルからのデータ投入だけで無く、ストリーミングデータからのデータ投入を簡単に作成出来ます!
3.大量なデータも超高速で一括取り込み可能
テラバイト級のデータでも問題なし!データ量に制限無く、リアルタイム&バッチで大規模データを取り込めます。しかも速い!
4.差分データの取得も!
単純なデータ複製だけで無く、変更されたデータ・差分データも取り込みが出来ます。データソースによってはリアルタイムデータ取込も可能です!
Mass Ingestionの4つの機能
上でも触れましたが、Mass Ingestionは4つのデータ取込機能を提供しています。それぞれ簡単に紹介します。
1.Mass Ingestion Files
大量なファイルデータを取り込む場合に活用できます。データレイクへのファイルデータ投入や、リモートFTPサーバからのファイル転送が可能です。
2.Mass Ingestion Applications
SalesforceやSAP ECC、Microsoft Dynamics 365等のSaaSアプリケーションデータをDWHにレプリケーションするなどの場合に活用できます。差分データも定期的に取り込むことが出来ます。
具体的な設定方法例は 昨年のインフォマティカ Advent Calender の記事 IICS Cloud Mass Ingestion Applicationsを使ってみる を参照ください。
3.Mass Ingestion Database
各種RDBMSやSAP HANAなどのデータのレプリケーションに活用できます。初期データ投入だけでなく増分データ投入が可能です。あまり知られていませんがChange Data Captureによるデータ取込も出来ます!
具体的な設定方法例は別途記事にする予定ですのでご期待ください。
4.Mass Ingestion Streaming
IoTデータをクラウドデータレイクに取り込んだり、ウェブログをKafkaに渡してリアルタイム分析を実施したりする際に活用できます。タイムウインドウ処理やフィルタリングを利用できます。
Mass Ingestionの使いどころ
ここまで読んで頂いたら、Mass Ingestion、使ってみたいと感じて頂けていると思います。
でも、Cloud Data Integrationとどう使い分けたら良いの?と思いますよね?
まず 以下の点をチェックしてみてください。
・データのトランスフォーム(変更)は一旦不要、データの移送を行えばOK -> Yes or No?
・Cloud DataWareHouse にデータの転送をしたい -> Yes or No?
・アプリケーションやDBのデータを定常的にレプリケーションしたい -> Yes or No?
・Streamデータを取り込みたい -> Yes or No?
1つでも Yes であれば Mass Ingestion の方の利用を検討してみてください。
以下に具体的なユースケースと使い分けについて表にしてみました。
用途 | 選択? | コメント |
---|---|---|
ファイルデータのロード | Mass Ingestion | 大量なファイル形式のデータをロード・移動・コピーする場合、Mass Ingestionが活用出来ます。 |
ELT | Mass Ingestion | まずDWHにロードを行った後に変更修正(Transform)を実施する場合にはMass Ingestionが適しています。MIでExtract+Loadの後にCDIでTransformもできます。 |
Clowd DWHへのCDCデータ投入 | Mass Ingestion | Mass IngestionはSnowflakeやGoogle BigQueryなどCloud DWHへのデータロードが大得意!速いです。 |
DWHへのCDCデータレプリケーション | Mass Ingestion | Mass Ingestionは単純なレプリケーションも得意です。 |
Streamデータ取得・投入 | Mass Ingestion | Streamデータ連携はMass Ingestionです。 |
RDBMSへのリアルタムデータ同期 | Data Integration | 投入先がRDBMSの場合はData Integrationの方が得意です。 |
メインフレームからのデータ取得・投入 | Data Integration | 取得元がメインフレーム系(Adabas,IDMS,IMS,VSAM等)の場合はData Integrationで。 |
データ変更をしつつCDCデータ投入 | Data Integration | CDCでデータ取得を行いつつTransformをしながらターゲットに渡すのであればData Integrationで。 |
おわりに
いかがでしたでしょうか。Mass Ingestionは今後も対応データソース・ターゲット(アプリケーションやデータベース)がどんどん追加されていく予定です。まだ使ったことないな、と言う方はこの機会に是非1度使ってみてください。こんなに良い機能なのに使わないのはもったいないですよー!(個人の意見です)
参考資料
Informatica Documentation Cloud Mass Ingestion