本記事は、IBM Cloud Advent Calendar 2022 12/16の記事となります。
Watson Knowledge Catalog(WKC)とは?
IBM Cloud Pak for Data(CP4D)上で稼働する、エンタープライズ・カタログサービスです。
データ活用者が一般ユーザーまで広がり、データ活用やデータガバナンスの必要性がありとあらゆるところで唱えられている昨今、企業が必要なデータを取り扱うために、適切な利用やセキュリティを担保するための統制を行なっていくためのツールとなります。
ここではあまり詳しく触れませんが、IBM Watson Knowledge Catalog (WKC) で始めるデータガバナンスなどでこの辺りの詳しい説明がありますので、興味がある方は参照いただくと良いかと思います。
WKC上では、構造化データの閲覧や関連付け、データのマスクやカラムごとのメタデータ付与など、構造化データをセキュアにガバナンスできることは他記事を見ても明らかかと思います。
一方で、非構造化データに関してはこれまであまり触れられてきた印象がなく、ここでは構造化データ以外の色々なデータをWKC上で見ていきたいと思います。
注意点
データの配置
IBM Cloud Object Storage(ICOS)上のデータを対象とします。
Amazon S3やGoogle等、ICOS以外のストレージにある画像やPDFデータはWKC上でプレビューできない仕様となっています。
(現状、これらをサポートする予定もないとのことです。)
接続作成時
ICOSとの接続作成時、ログインURLを「https
」から始める必要があります。
(http
を使用しても接続自体は作れますが、後続で出てくる資産タブでデータがうまく表示されません。筆者はここにハマって時間を溶かしてしまいました。)
画像
カタログから資産タブを見ると、画像がWKC上で閲覧できていることがわかります。
また、右上のボタンから資産をローカルにダウンロードすることができます。
ただし、概要タブ内で付与できるものはビジネス用語、分類、関連する資産のみになり、構造化データのために用意されている列名ごとの値は見ることができません。
画像と同様、資産タブからPDFが閲覧できることがわかります。ダウンロードも問題なくできそうです。印刷ボタンまであり、WKC上から印刷までできそうです。
2ページ表示もできます。
また画像同様、概要タブ内で付与できるものはビジネス用語、分類、関連する資産のみになり、構造化データのために用意されている列名ごとの値は見ることができません。こちらはスクショは省略します。
JSON
資産からjsonファイルの中身をtextモードで閲覧することができそうです。
また、画像右上のボタンから資産をローカルにダウンロードすることも可能です。DLすると、.json
ファイルでDLされます。
概要タブからは、JSONのカラムが検出されて列名に格納されていることがわかります。ただし、JSONが入れ子になっている場合は最上位のカラムしか検出されないため、注意が必要です。
Excel
Excelファイルは元ファイルとの比較があるとわかりやすいため、まずは元ファイルを見てみて、その後WKC上での見え方を見てみていただくと良いかと思います。
元ファイルには、ダミーの身長体重データとそれぞれの基本統計量、また身長と体重の相関図がグラフ化されています。データは途中で途切れていますが、100件入っています。
これがWKCの資産タブでどう映るか見てみましょう。
まず、Excelの各列がカラム化されています。次に図がWKC上では表示されていません。
また、細かいですが基本統計量の数値でExcelの機能で丸めていた部分がWKC上では全て表示されています。加えて、罫線やセルの色付けフォントが全て効いていない状態です。
ただしダウンロードすると、問題なく全てが見えるようになるため、ExcelがWKC上にあり中身を見てみたくなった場合は一回ダウンロードするのが吉かと思います。
概要タブからは、Excelの列がカラム検出されていることがわかります。必要に応じて使えそうです。
フォルダ
WKCでフォルダを登録することもできます。以下のように、登録後の資産画面ではフォルダ配下のファイルが左側にリストされています。
リストからsample.txt
にカーソルを合わせて現れる目玉マークを選択すると、画面でデータの中身を見れるようになります。
一方で、画像データは同じようにカーソルを合わせても目玉マークが現れず、資産タブ画面でデータを閲覧することができません。元の画面でダウンロードボタンが右側に出てくるため、一旦画像をダウンロードして中身を閲覧する必要があります。
また、概要タブではフォルダへのビジネス用語登録や、分類などのメタデータを付与できます。
まとめ
WKCでは、構造化データだけではなく様々な非構造化データも登録できることがわかりました。
一方でソースデータの配置場所や非構造データ毎のWKC上での見え方などを把握しておき、効果的な使い方を模索していきながら、データガバナンスの強化に繋げていければ良いかと思います。