はじめに
Watson Knowledge Catalog for CP4DaaS で使用できる、Metadata Enrichment機能について試してみました。
Metadata Enrichmentを使うと、自動でビジネス用語をアサインしてくれるようなのでその機能を試しました。
ここで紹介する画面キャプチャは2022年7月時点のものです。
実際の画面と異なる部分もあるかもしれませんがご了承ください。
前提
Metadata Enrichmentの詳細な手順については以下のQiita記事に記載されているため、ここでは割愛します。
ビジネス用語の自動アサイン:3つの方式
ビジネス用語を自動的にアサインする方式には3つあります。
- 名前マッチングによる自動アサイン
- データ・クラス・マッチングによる自動アサイン
- 機械学習による自動アサイン
実際にやってみたのは「2」と「3」です。
まず、それぞれの自動アサインについて少しだけ解説します。
詳細はマニュアルを参照してください。
1. 名前マッチングによる自動アサイン
ビジネス用語とデータ資産(テーブル)やカラムの「名前」が似ていれば用語がアサインされるという方式です。
例えば、「CREDNUM」というカラム名があり、「Credit Card Number」というビジネス用語がある場合は、名前がお互い似ているのでビジネス用語がアサイン/推奨される可能性があるそうです。
2. データ・クラス・マッチングによる自動アサイン
ビジネス用語にデータ・クラスが紐づいている場合に動作します。
例えば、データを分析した結果、特定のカラムがメールアドレスと分類されて Email Address のデータ・クラスが選択されたとします。
すると、ビジネス用語の中から、Email Address のデータ・クラスが紐づいているものを探し、該当するものがあればそのビジネス用語をカラムにアサインする、というものです。
「電子E」のビジネス用語に「Email Address」のデータ・クラスが紐づいている様子。
EMAIL列が「Email Address」データ・クラスに分類され、その結果「電子E」のビジネス用語がアサインされた様子。
(他の列にアサインされているビジネス用語は手動でアサインしたものなのでここでは無視してください)
3. 機械学習による自動アサイン
機械学習によってビジネス用語をアサインする方式です。
表やカラムに対してビジネス用語を手動でアサインすると、その情報を元に学習が行われ、次回から同じカラム名に対して同じビジネス用語が推奨される/アサインされるものです。
上記Qiita記事にある初回のMetadata Enrichmentでは機械学習によるトレーニングは行われません。
この後に、トレーニングを動作させるためにはいつくかのポイントがあります。(は重要ポイント)
- Metadata Enrichmentで指定されたカテゴリーに紐づく公開されたビジネス用語を使ってトレーニングされる
- ビジネス用語がアサインされたReview済みのカラムを使ってトレーニングされる
- 最後にトレーニングされてから20カラムReviewするごとに再トレーニングが行われる
- 新しくビジネス用語を公開することでも再トレーニングが行われる
- 既存のビジネス用語の説明文を編集して公開するだけでも良い
機械学習によるビジネス用語の自動アサインの流れ
機械学習によるビジネス用語の自動アサインの流れについて手順を紹介します。
1. まずは手動でビジネス用語をアサイン
カラム名が英語で、ビジネス用語が日本語の場合は、初回の Metadata Enrichment ではデータ・クラス・マッチングのみが行われるため、それ以外のビジネス用語については自動的にアサインされません。
そのため、まずは手動で、各カラムに対してビジネス用語をアサインしていきます。
EMPLOYEE表の全てのカラムに手動でビジネス用語をアサインした様子。
2. カラムをReview
ビジネス用語をアサインしたEMPLOYEE表のカラムに対して「レビュー済みのマークをつける」を選択します(1つ目のの部分)。
3. ビジネス用語を公開
Metadata Enrichmentで指定したカテゴリのビジネス用語の説明文を編集して公開します(2つ目のの部分)。
4. Metadata Enrichmentを再実行
手動でビジネス用語をアサインした EMPLOYEE表 とよく似た EMPINFO表 の Metadata Enrichment を実行した結果が以下です。
「FIRST_NAME」に対して「名」のビジネス用語が「信頼性スコア:100%」でアサインされていて、「MLベースの用語の割り当て」が使われたことがわかります。
加えて、「推奨されるビジネス用語」として「名英語」が「82%」の信頼性で提案されました。
カラム名が似ているからかもしれませんね。
その他のカラムについても、EMPLOYEE表と同じカラム名に対して自動的にビジネス用語がアサインされました。
まとめ
Metadata Enrichmentを使って、ビジネス用語の自動アサインができました。
カラム名が全く同じ場合、ビジネス用語が自動でアサインされました。
カラム名が多少異なっている場合は、ビジネス用語が推奨されました(「FIST_NAME」と「FIRST_NAME_EN」の例)。
「多少」がどの程度か気になりますが、以下のように「EMP_CODE」と「EMPLOYEE_CODE」や「GENDER」と「GENDER_CODE」の場合は、デフォルトではビジネス用語は推奨されませんでした。
メタデータのエンリッチメント設定から「用語の割り当て」の閾値を変更すると出てくるかもしれません。
お断り
このサイトの掲載内容は私自身の見解であり、必ずしも所属会社の立場、戦略、意見を代表するものではありません。 記事は執筆時点の情報を元に書いているため、必ずしも最新情報であるとはかぎりません。 記事の内容の正確性には責任を負いません。自己責任で実行してください。