0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

2024/07/02備忘録

Last updated at Posted at 2024-07-02

IDMC

クラウドやオンプレミス(自社に設置している)上のデータをワンプラットフォームで処理する。
ユーザなどが必要とするデータに関する機能を提供している。
その中の一つがIICSというもの。

そもそもIICSって?

クラウド上のデータ結合や管理の為のプラットフォーム。
企業がデータの結合や品質管理、セキュリティなどをクラウド上で効率的行うためのツール。
データ結合やデータ管理をクラウド上で効率的に行うための協力的なプラットフォームのこと。

【以下のようなコンポーネント構成】

  • データ結合(DI):異なるデータソース間で結合する機能
  • アプリケーション結合(API):異なるアプリケーション間でデータを結合しリアルタイム同期する機能
  • データ品質管理(DQ):データのクレンジング、標準化、検証を行い、データ品質を保つ機能
  • マスターデータ管理(MDM)企業全体の重要なデータを一元管理し、一貫性のあるデータを提供する機能

【IICSのアーキテクチャ】

・Informatica Cloud:IICSの中核となるクラウドベースのプラットフォーム
・Secure Agent:クラウドとオンプレミスのデータソース間で安全にデータを転送するためのエージェント
・Connector:異なるデータソース(データベースやファイルやAPなど)との接続を可能にする

【使用例】

  • ETLプロセスにおけるデータの抽出、変換、ロードを自動化しデータウェアハウスに結合する
  • リアルタイムデータ同期:異なるアプリケーション間でリアルタイムにデータを同期し、ビジネスプロセスの効率を向上させる
  • データクレンジング:データの不正確さや重複を排除し、データの品質を向上させる

※データウェアハウス:ここでは目的別に編成されたデータを保管する場所として理解する

IICSのCDI(Informatica Cloud Data Integration)とは?

クラウドや自社サーバーに存在する大量のデータをシームレスに結合してくれるもの。
infomaticaに用意されているドライバを使うことで色んなデータソースから様々なデータを結合することができる。

  • Filter(フィルタ)とRouter(ルーター)

    • Filter:入力されてきたデータを条件によって絞り込むもの(SQLのWHERE句みたいなもん)
    • Rounter:入力されたデータを条件に応じて複数のグループに分けて出力してくれるもの
  • Sorter(ソーター)

    • データをソートしてくれるもの
    • 後々に使うアグリゲーターという集約関数の機能を提供してくれているインターフェイスの前にやる必要がある
  • Aggregator (集約関数)

    • 集約関数の機能を提供しているインターフェイス
    • AVGやSUMなどがある

【ETLとはなんぞや?】

そもそもETLって?

ETLとは「データの抽出」、「データの変換」、「データの書き出し」の略語からなる言葉。
データベースやシステムからデータを抽出しフォーマットに変換して、データウェアハウスなどに書き出す一連のプロセス。一般的にはデータを保存する前に行われる。
主な活用ケースとしてはBIなどで分析をする際に使われる。

  • 抽出(Extract)
    基幹システムやデータベースからデータを抽出する。
    どのような目的でデータを抽出するのか明確化してから作業に臨むと、どんなデータを抽出すれば良いか分かるので効率が良くなる

  • 変換・加工(Transform)
    データを保存しやすいように一定の規則に従いデータを変換、加工する
    注意点として保存場所(データウェアハウス)に適したデータ形式を把握せず、別の形式でデータを抽出してしまうと変換や加工に大幅な時間がかかってしまう
    そのため、各過程で担当者が異なる場合には情報を共有する必要がある

  • 書き出し(Road)
    変換、加工済みの過程で作成したデータを保存する場所に書き出す工程
    データウェアハウスが保有する「インポート命令」というものを利用すると効率的で、SQLのINSERT文よりも一度に大量のデータを高速に取り込める

【データウェアハウスとは】

簡単に言うとデータを保管しておくデータベースのこと。
DWHは、意志決定のため、目的別に編成され、統合された時系列で、削除や更新しないデータの集合体」と定義されている。
会計管理や在庫管理など様々なシステムなどから集められる。

【データウェアハウスとデータベースの違いは?】

データウェアハウスはデータ分析に特化したデータベースのこと。
超並列処理のアーキテクチャを採用しており、1つのクエリ処理を同時に処理する事ができるため、
通常のデータベース処理における検索、分析機能を飛躍的に高く発揮できる。
また、データの格納もデータ毎(顧客や商品、店舗など)に分解・整理されているので
データ分析に適している。
さらに、データが時系列に沿って消去・更新されることなく常に蓄積されていく。

【データレイクとは】

主な違いとしては格納されるデータが違う。
データレイクは、構造化データに加えて、データベース化できない非構造化データも対象にしている。
非構造化は例えば電子メールや画像や動画などを指す。
データレイクでは、これらのデータが、加工を施されることなくそのままの形で一元的に格納される。

もっと詳しい情報に関しては以下のリンクを参照する。

【BIとは】

BI(ビジネスインテリジェンス)とは、企業のシステム集められているデータを分析し、経営上の意思決定に役立てられるツール。
BIはデータを有効活用し、ビジネスのパフォーマンスを向上させる。

【参考サイト】

ETLとは?
DWH(データウェアハウス)とは?
【パートナーブログ:クラスメソッド】IICS CDI Mapping Designer入門

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?