LoginSignup
6
1

More than 1 year has passed since last update.

Watson Knowledge Catalog for CP4DaaS       Metadata Enrichment 機能について

Last updated at Posted at 2022-07-20

はじめに

前提作業

  • プラットフォーム接続にDb2接続を作成
  • カタログおよびプロジェクトの作成、それぞれに管理者権限の追加
  • カテゴリーの作成、管理者権限の追加
  • ビジネス用語(日本語)の登録
  • Db2 on Cloud環境へのテーブル作成とデータ投入
    • メタデータ(表名、列名):英語
    • 投入データ:日本語
  • プロジェクトからメタデータインポート
    • インポート先:プロジェクト

Metadata Enrichment実施の流れ

  1. プロジェクトを開き、資産タブから「新規資産」 > 「メタデータのエンリッチメント」をクリックします。image.png

  2. 詳細を定義します。

    • Enrichmentの名前、説明(任意)、タグ(任意)を指定します。image.png
  3. データ・スコープを設定します。

    • 当記事では、前提作業で作成したメタデータのインポートを対象としました。image.png
  4. 各オプションを指定します。

    • エンリッチ対象
      • 「プロファイル・データ」、「品質の分析」、「用語の割り当て」を選択
    • カテゴリー
      • [uncategorized]および前提作業で作成したカテゴリーを選択
    • サンプリング
      • 「基本」を選択image.png
  5. スケジュールおよびEnrichment再実行時のデータ・スコープを設定します。

    • スケジュール
      • オフに設定
      • 再実行時のデータ・スコープ
        • 「すべてのデータ資産」(デフォルト)を選択image.png
  6. 各設定を確認し、「作成」をクリックします。image.png

  7. Enrichmentが完了すると、エンリッチ状況が「完了」となります。image.png

Metadata Enrichmentの結果

  • プロファイル・データ
    • プロジェクト内のテーブルの「プロファイル」タブから、データクラスや統計情報(行数、最大値、最小値、フォーマット等)を確認することができます。image.png
  • 品質の分析
    • 「データ品質」列から、表および列のスコアを確認することができます。image.png
      image.png
    • また、「データ品質の詳細の表示」からデータ品質違反を確認することができます。
      • データ品質違反に関するマニュアルは以下になります。
      • 今回の検証では、以下4種類の違反が検出されました。
        image.png
      • 今回利用したDb2のデータ(エクセル表)と結果を照らし合わせてみます。違反が検出されたデータと違反の種類は以下になります。image.png
      • Unexpected missing valuesに関しては、今回の検証で使用したデータの総件数が20件のため、Enrichmentの「デフォルトの設定」より、NULLしきい値を5%(デフォルト値)から10%に変更したことで、検出されました。
        image.png
  • 用語の割り当て
    • 「ビジネス用語」列から、表や列に割り当てられたビジネス用語を確認することができます。
      • 今回の検証は、初回のMetadata Enrichmentであり、メタデータは英語、ビジネス用語は日本語のため、データクラスマッチングによる割り当てのみ自動で行われました。
        image.png
        image.png
    • 自動でビジネス用語が割り当てられなかった資産に関しては手動でビジネス用語の割り当てを行います。
      • 表への割り当て手順は以下になります。
        • 画面右側の「ガバナンス」タブより「ビジネス用語の割り当て」をクリックします。
          image.png
        • 割り当てたいビジネス用語を選択し、「割り当て」をクリックします。
          image.png
        • 「ビジネス用語」列に手動で割り当てたビジネス用語が表示されます。
          image.png
      • 列への割り当ても同様の手順で行います。
        image.png

ReviewおよびカタログへのPublish

  • Enrichment結果の確認後、結果をReviewし、カタログへのPublishを行います。
    • Review
      • 資産の画面で、「レビュー済みのマークを付ける」を選択します。
        image.png
      • 「レビュー状況」にチェックが付きます。
        image.png
      • 列のReviewも同様の手順で行います。
        image.png
    • Publish
      • Publishしたい資産を選択して「公開」をクリックします。
        image.png
      • 「ターゲット」で、前提作業で作成したカタログを選択し、「公開」をクリックします。
        image.png
      • カタログに対象資産が追加されていることが確認できます。
        image.png
      • また、カタログから、表や列にビジネス用語がついていることも確認できます。
        image.png
        image.png

まとめ

  • Metadata Enrichmentを使用することで、データの統計情報の把握や品質の分析、用語の割り当てを行うことができました。
  • また、Enrichmentの結果をReviewし、カタログにPublishすることができました。

 

6
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
1