はじめに
Watson Knowledge Catalogでは、データ品質定義及びデータ品質ルールから成るData Quality(データ品質)機能が提供されています。Data Qualityでは、ルール式を定義し、データ資産に含まれる違反データを検出することが可能です。
これらの設定および検証結果について記載します。
環境
Cloud Pak for Data 4.5.0 Watson Knowledge Catalog
Db2 on Cloud
- 事前作業
- 1. 分析プロジェクトを用意する
- 2. データ品質ルールを適用する表を「メタデータのインポート」でインポートする
ここでは、「Test_kgw」という分析プロジェクトを用意し、Db2のCUSTOMER_PROFILE表、CUSTOMER_DEMOGRAPHIC表をメタデータインポートしています。
CUSTOMER_PROFILE表はルール式を適用する表、CUSTOMER_DEMOGRAPHIC表は違反データを出力する表です。
- Data Qualityの実行手順
- Data Qualityは下記の手順に従って実行します。
- 1. データ品質定義を作成する
- 2. データ品質ルールを作成する
- 3. データ品質ルールを実行する
1. データ品質定義を作成する
最初にデータ品質定義を作成します。
ここで違反データとなる条件をルール式で定義します。
上記分析プロジェクトの「Test_kgw」→「資産」タブから「新規資産」をクリックし、「新規資産」画面で「データ品質定義」をクリックします。
「データ品質定義の作成」の画面で、データ品質定義の名前や説明、データ品質ディメンジョンを入力します。
ここでは「顧客プロファイルの完全性」という名前で、データ品質定義を作成します。「次へ」をクリックします。
ルール式を入力します。
ここでは以下のような式を入れています。
IF STATE='TX' AND AGE<25 AND ID exists THEN Profile_Status='complete' and Eligible_For_Credit_Card_Promo='true'
後述するデータ品質ルールで、このルール式を満たすデータを違反データとして検出することになります。
「作成」をクリックします。
「顧客プロファイルの完全性」というデータ品質定義が作成されました。
2. データ品質ルールを作成する
次にデータ品質ルールを作成します。
データ品質ルールでは、先ほど作成したデータ品質定義とそれを適用する表をマッピングします。
分析プロジェクトの「Test_kgw」に戻って、「資産」タブから「新規資産」をクリックし、「新規資産」画面で「データ品質ルール」をクリックします。
「データ品質ルール」の画面で、データ品質ルールの名前や説明、データ品質ディメンジョンを入力します。
ここでは「プロファイルの完全性評価」という名前で、データ品質ルールを作成します。
右側の「データ品質定義」には、先ほど作成した「顧客プロファイルの完全性」を選択します。
「次へ」をクリックします。
「サンプリング&バインディング」でルール式で定義している変数と、ルールを適用する表及び列をマッピングします。
ルール式では5つの変数(state、age、id、Profile_Status、Eligible_For_Credit_Card_Promo)を使用しているため、それぞれに対応する列を選択します。
ここでは変数ageに対して、CUSTOMER_PROFILE表のAGE列を選択しています。
同様の作業を残りの4つの変数に対して行います。
全てのマッピングが終わると、「サンプリング&バインディング」の画面が表示されます。
サンプリングを行う場合は、「データ・サンプリング」右横のチェックを有効にし、サンプリング件数、サンプリング方法等を設定します。
ここでは下記画面のように設定しています。
下にスクロールすると、先ほど設定したバインディングの情報が表示されます。ルール式や変数と列のマッピングが正しく設定されていることを確認します。
「次へ」をクリックします。
「結合」の画面が表示されますが、ここでは設定しないため、「次へ」をクリックします。
「出力」画面で、違反データの出力設定を行います。
「出力ロケーション」に、CUSTOMER_DEMOGRAPHIC表を指定します。ここでは、ルール式に合致するデータを違反データとして検出したいため、「出力レコード」では「ルールの条件を満たすレコード」を選択します。
下にスクロールし、「例外出力レコードの最大数」及び「更新メソッド」を以下のように設定します。
さらにスクロールすると、「出力内容」の設定画面が表示されます。
右上の「出力内容を追加する」から「統計と属性」を選択します。
CUSTOMER_DEMOGRAPHIC表に出力する内容(列)を選択します。
ここではRecort ID、Rule name、Rule met or not metを選択し、「追加」をクリックします。
「出力内容」が設定されていることを確認し、「次へ」をクリックします。
「レビュー」画面で、データ品質ルールの設定内容のサマリーを確認します。
「作成」をクリックします。
データ品質ルールが作成されました。
3. データ品質ルールを実行する
先ほど作成したデータ品質ルールを実行してみましょう。
右上の「ルールを実行します。」をクリックします。
ルール実行が開始されたというメッセージが上部に表示されます。
「実行履歴」タブを開くと、ルールの実行状況を確認できます。
状況が「完了」になったら、「出力表を表示します。」をクリックします。
「ルール プロファイルの完全性評価 の出力」が表示されます。
ルール式に合致した違反データが14件検出されたことが分かります。
おわりに
Watson Knowledge Catalogが提供しているData Quality機能では、データ品質定義とデータ品質ルールという2つの設定が必要であり、データ品質ルールでデータ品質定義及びルールを適用する表をマッピングすることで、違反データの検出が実行できることが分かりました。
データ品質定義が分離されていることにより、複数のデータ資産や異なるデータソースに対して同一のルール式を適用できるため、効率的に違反データの検出ができます。
なお、当記事では紹介していませんが、ルール式をブロックを組み合わせることで作成できるGUIや(4.5.2以降)、データ品質ルールのテスト機能(4.5.3以降)等も提供されており、今後のバージョンにおいても機能が拡充されていくと思われます。
参考情報
https://www.ibm.com/docs/en/cloud-paks/cp-data/4.5.x?topic=data-managing-quality