この記事は インフォマティカ Advent Calendar 2023 Day 17 の記事として書かれています。
はじめに
Informaticaのクラウドサービス Intelligent Data Management Cloud ではデータの品質を確認し、データの品質を高め、是正するのに最適なソリューション”データ品質”機能も提供しています。ただ、実際にどのように設定・構成したら良いのか、そもそも使ったらどんな感じになるの?便利なの?など、あまりイメージが沸かないかもしれません。
デフォルトで用意された”コアデータ品質バンドル”
データがどのように綺麗になるのか、と言う点を簡単にお試し頂けるようにInformaticaがデフォルトで用意・ご提供しているデータ品質部品群をご紹介します。こちらをご利用頂ければデータ品質ソリューションでどんなことができるか、どんな恩恵を受けられるのかをイメージ出来ると思います。データ品質の部品を今後どんどん有効活用して頂く足がかりにして頂ければ幸いです。
”コアデータ品質バンドル”詳細
”コアデータ品質バンドル”とはデータ品質を高める為に便利な様々なクレンジング部品、ルール部品、ディクショナリ等のコア部品と、それを直ぐに使えるようにしてあるマップレット群です。全部で227種類の直ぐに使える部品が用意されています。そのまま使ってももちろん良いですし、業務・目的に合わせて自由にカスタマイズしても構いません。
補足)”コアデータ品質バンドル”を使う準備
以下のように、お客様の好きなフォルダにコピーして頂くだけで直ぐに使えるようになります。
1 [管理者]画面に移動し、左メニューの”アドオンバンドル”->”使用可能なバンドル” をクリックし、”Data Quality Core Bundle”を探してクリックします。
- バンドル詳細画面右上の「バンドルの内容を次の場所にコピー..」ボタンを押下し、好きなプロジェクト・フォルダを選択すれば、その場所にコピーされ、即時使えるようになります。簡単ですね。まず一旦任意のバンドル配置用フォルダにコピーし、その後、実業務で利用するフォルダに個別にコピーするのが良いと思います。
触ってみよう!
これらの部品を使ったらどういう風にデータが綺麗になるのか、気になりますよね。任意のフォルダにコピーしたら直ぐにテストして動作確認できます。実際に見てみましょう。
[データ品質]に移動し、バンドルアセットをコピーしたフォルダを開きます。
このアセット・部品は既に直ぐ使える状態です。実際に動作を確認してみます。
入力文字列からすべてのハイフンを削除する部品 c_Remove_Hyphen
渡された文字列にハイフンが有ったら削除して戻したい。そんなことが出来る部品が用意されています。
この部品だけで実際にデータを入れてテスト・動かすことが出来ます。
部品を開き、”設定”タブを開いてみると、既に部品の設定が出来ています。さらに、下の↓方を見ると、テストデータが入力されており、これを実行したらどういう結果が戻ってくるのか?をその場で試すことが出来ます。部品の動きをイメージできます。
↓
結果、以下のようにハイフンが除去された文字列になって出力されることが確認出来ますね。
ごらんのように、どのように動作するのか?テストデータを入力してその場でテストして確認出来るので、この部品を使いかたが簡単に把握できます。とても便利ですよ。
個人的に便利そうな部品Pickup
複数の連続するスペースを単一のスペースで置換し、前後のスペースを削除 - c_Remove_Extra_Spaces
文字列からe-mailアドレスを抽出する - p_Email_from_Text
日付/時刻データから年をyyyyで返す - rs_extract_year_from_date
日付整合性確認 - rs_verify_date1_precedes_date2
入力データNullチェック - rs_check_input_is_not_null
コアデータ品質バンドル一覧 (2023/12/15現在、227部品)
上記のような直ぐ使える部品が227個も用意されています。個別には紹介しきれないのですが以下のようなマニュアルに記載が御座いますのでご確認下さい。また、是非とも実際に使ってみて試してみると良いですよ。
オンラインマニュアル:データ品質アクセラレータバンドル >コアデータ品質バンドル
コアデータ品質バンドル部品の実装方法
データ統合機能のマッピングにて、各データ品質部品を配置し、設定する事で利用可能です。
おわりに
本記事はほぼマニュアルの情報のみ、基本的な情報のみの紹介となりますが、ぜひ皆様に知って頂きたいので記事にしてみました。便利ですのでどしどしご利用ください!