データ辞書を使ってみる

Last updated at 2022-12-23Posted at 2022-12-23

はじめ

データ辞書とは大規模な情報システムでデータの一貫性や整合性を保つために、扱うデータの種類やそれぞれの名称、意味、所在、データ型などを列挙したデータベースや文書類のことです。

あるテーブルの住所のデータに対して、データ辞書を参照して、クレンジングすることで都道府県の表示を一致するようにします。

先ずInformaticaのプロファイリング機能を活用して、事前にデータ品質を分析することで、どんなクレンジングが必要なのかを予めに把握することができます。（プロファイリング機能の紹介は：What is Data Profiling and Why Profile Your Data?）

ソースのデータに対してプロファイリングしたら、住所の値が下図の結果となります。後尾に「都/道/府/県」いずれかの文字を付いてるレコードと付いてないレコードがあって、平仮名で入ってるデータもあります。多分、複数のシステムから統合してきたデータかもしれませんが、値の表示ルールが統一されていません。

色んなパターンを纏めたExcelファイルを用意します。このファイルを辞書として登録します。

データ品質の画面に入って、新規ボタンをクリックします。

ディクショナリをクリックして新規作成します。

設定画面にインポートボタンをクリックすることで、データ辞書ファイルを選択して、インポートします。

最初の行からインポートをチェックすれば、タイトルをスキップして第一行のレコードから読み取ります。
設定完了後、「インポート」をクリックして、右上の保存ボタンを押して保存します。

左のナビゲーション欄に新規ボタンをクリックして、クレンジングを新規作成します。

クレンジングの設定画面に、「＋」ボタンを押して、クレンジングルール（値の置換）を追加します。

右半分の設定は以下をご参照ください。
モード：入力値をディクショナリ値で置換
ディクショナリ：先作成したディクショナリを選びます。
有効なカラム：辞書のどのカラムに統一しますかという意味です。
区切り文字：なしにします。

設定したルールは正常に動作するのか、結果をテストすることもできます。画面の下側に入力値を入れて、Secure Agentを選んでテストを行います。このルールでクレンジングしたら、データが予想通りになるかどうか確認できます。

こんな簡単な設定をすることでデータ辞書を使えます。データ辞書を使ってるクレンジングはマッピングにも使えますし、プロファイリングのルールとしても使えます。

InformaticaのUI(ユーザーインターフェース)にマウスでクリックするだけで簡単にデータ辞書とクレンジングを設定することができます。その便利さをぜひお試しください。