LoginSignup
29
4

More than 1 year has passed since last update.

はじめ

データ辞書とは大規模な情報システムでデータの一貫性や整合性を保つために、扱うデータの種類やそれぞれの名称、意味、所在、データ型などを列挙したデータベースや文書類のことです。

今回のシナリオ

あるテーブルの住所のデータに対して、データ辞書を参照して、クレンジングすることで都道府県の表示を一致するようにします。

先ずInformaticaのプロファイリング機能を活用して、事前にデータ品質を分析することで、どんなクレンジングが必要なのかを予めに把握することができます。(プロファイリング機能の紹介は:What is Data Profiling and Why Profile Your Data?

ソースのデータに対してプロファイリングしたら、住所の値が下図の結果となります。後尾に「都/道/府/県」いずれかの文字を付いてるレコードと付いてないレコードがあって、平仮名で入ってるデータもあります。多分、複数のシステムから統合してきたデータかもしれませんが、値の表示ルールが統一されていません。
image.png

Informaticaでデータ辞書を使う方法

データ辞書を準備する

色んなパターンを纏めたExcelファイルを用意します。このファイルを辞書として登録します。
image.png

IICSにインポートする

データ品質の画面に入って、新規ボタンをクリックします。
image.png

ディクショナリをクリックして新規作成します。
image.png

設定画面にインポートボタンをクリックすることで、データ辞書ファイルを選択して、インポートします。
image.png

最初の行からインポートをチェックすれば、タイトルをスキップして第一行のレコードから読み取ります。
設定完了後、「インポート」をクリックして、右上の保存ボタンを押して保存します。
image.png

左のナビゲーション欄に新規ボタンをクリックして、クレンジングを新規作成します。
image.png

クレンジングの設定画面に、「+」ボタンを押して、クレンジングルール(値の置換)を追加します。
image.png
image.png

右半分の設定は以下をご参照ください。
モード:入力値をディクショナリ値で置換
ディクショナリ:先作成したディクショナリを選びます。
有効なカラム:辞書のどのカラムに統一しますかという意味です。
区切り文字:なしにします。
image.png

設定したルールは正常に動作するのか、結果をテストすることもできます。画面の下側に入力値を入れて、Secure Agentを選んでテストを行います。このルールでクレンジングしたら、データが予想通りになるかどうか確認できます。
image.png

こんな簡単な設定をすることでデータ辞書を使えます。データ辞書を使ってるクレンジングはマッピングにも使えますし、プロファイリングのルールとしても使えます。

まとめ

InformaticaのUI(ユーザーインターフェース)にマウスでクリックするだけで簡単にデータ辞書とクレンジングを設定することができます。その便利さをぜひお試しください。

29
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
29
4