IDMC
クラウドやオンプレミス(自社に設置している)上のデータをワンプラットフォームで処理する。
ユーザなどが必要とするデータに関する機能を提供している。
その中の一つがIICSというもの。
そもそもIICSって?
クラウド上のデータ結合や管理の為のプラットフォーム。
企業がデータの結合や品質管理、セキュリティなどをクラウド上で効率的行うためのツール。
データ結合やデータ管理をクラウド上で効率的に行うための協力的なプラットフォームのこと。
【以下のようなコンポーネント構成】
- データ結合(DI):異なるデータソース間で結合する機能
- アプリケーション結合(API):異なるアプリケーション間でデータを結合しリアルタイム同期する機能
- データ品質管理(DQ):データのクレンジング、標準化、検証を行い、データ品質を保つ機能
- マスターデータ管理(MDM)企業全体の重要なデータを一元管理し、一貫性のあるデータを提供する機能
【IICSのアーキテクチャ】
・Informatica Cloud:IICSの中核となるクラウドベースのプラットフォーム
・Secure Agent:クラウドとオンプレミスのデータソース間で安全にデータを転送するためのエージェント
・Connector:異なるデータソース(データベースやファイルやAPなど)との接続を可能にする
【使用例】
- ETLプロセスにおけるデータの抽出、変換、ロードを自動化しデータウェアハウスに結合する
- リアルタイムデータ同期:異なるアプリケーション間でリアルタイムにデータを同期し、ビジネスプロセスの効率を向上させる
- データクレンジング:データの不正確さや重複を排除し、データの品質を向上させる
※データウェアハウス:ここでは目的別に編成されたデータを保管する場所として理解する
IICSのCDI(Informatica Cloud Data Integration)とは?
クラウドや自社サーバーに存在する大量のデータをシームレスに結合してくれるもの。
infomaticaに用意されているドライバを使うことで色んなデータソースから様々なデータを結合することができる。
-
Filter(フィルタ)とRouter(ルーター)
- Filter:入力されてきたデータを条件によって絞り込むもの(SQLのWHERE句みたいなもん)
- Rounter:入力されたデータを条件に応じて複数のグループに分けて出力してくれるもの
-
Sorter(ソーター)
- データをソートしてくれるもの
- 後々に使うアグリゲーターという集約関数の機能を提供してくれているインターフェイスの前にやる必要がある
-
Aggregator (集約関数)
- 集約関数の機能を提供しているインターフェイス
- AVGやSUMなどがある
【ETLとはなんぞや?】
そもそもETLって?
ETLとは「データの抽出」、「データの変換」、「データの書き出し」の略語からなる言葉。
データベースやシステムからデータを抽出しフォーマットに変換して、データウェアハウスなどに書き出す一連のプロセス。一般的にはデータを保存する前に行われる。
主な活用ケースとしてはBIなどで分析をする際に使われる。
-
抽出(Extract)
基幹システムやデータベースからデータを抽出する。
どのような目的でデータを抽出するのか明確化してから作業に臨むと、どんなデータを抽出すれば良いか分かるので効率が良くなる -
変換・加工(Transform)
データを保存しやすいように一定の規則に従いデータを変換、加工する
注意点として保存場所(データウェアハウス)に適したデータ形式を把握せず、別の形式でデータを抽出してしまうと変換や加工に大幅な時間がかかってしまう
そのため、各過程で担当者が異なる場合には情報を共有する必要がある -
書き出し(Road)
変換、加工済みの過程で作成したデータを保存する場所に書き出す工程
データウェアハウスが保有する「インポート命令」というものを利用すると効率的で、SQLのINSERT文よりも一度に大量のデータを高速に取り込める
【データウェアハウスとは】
簡単に言うとデータを保管しておくデータベースのこと。
DWHは、意志決定のため、目的別に編成され、統合された時系列で、削除や更新しないデータの集合体」と定義されている。
会計管理や在庫管理など様々なシステムなどから集められる。
【データウェアハウスとデータベースの違いは?】
データウェアハウスはデータ分析に特化したデータベースのこと。
超並列処理のアーキテクチャを採用しており、1つのクエリ処理を同時に処理する事ができるため、
通常のデータベース処理における検索、分析機能を飛躍的に高く発揮できる。
また、データの格納もデータ毎(顧客や商品、店舗など)に分解・整理されているので
データ分析に適している。
さらに、データが時系列に沿って消去・更新されることなく常に蓄積されていく。
【データレイクとは】
主な違いとしては格納されるデータが違う。
データレイクは、構造化データに加えて、データベース化できない非構造化データも対象にしている。
非構造化は例えば電子メールや画像や動画などを指す。
データレイクでは、これらのデータが、加工を施されることなくそのままの形で一元的に格納される。
もっと詳しい情報に関しては以下のリンクを参照する。
【BIとは】
BI(ビジネスインテリジェンス)とは、企業のシステム集められているデータを分析し、経営上の意思決定に役立てられるツール。
BIはデータを有効活用し、ビジネスのパフォーマンスを向上させる。
【参考サイト】
ETLとは?
DWH(データウェアハウス)とは?
【パートナーブログ:クラスメソッド】IICS CDI Mapping Designer入門