2.設定編
Cloud Pak for Data as a Serviceハンズオンメニュー一覧
本記事では、上記の1.構築編によって準備されたSaaS環境にて、分析のために設定する手順を記載しています。
公式ドキュメント
- IBM Cloud Pak for Data as a Service の公式ドキュメントはこちらをご参照下さい。
1.ガバナンス
- 以下の手順は、こちらの動画でも解説しています。
1.1.カテゴリーの追加
-
各種データ資産や成果物を分類しておくためのカテゴリーを作成しておきます。
-
カテゴリーについての公式ドキュメントはこちらを参考にして下さい。
-
IBM Cloud Pak for Data画面左上のハンバーガーメニューから、「ガバナンス」の「カテゴリー」をクリック。※グロッサリーを初期化するのに、少し時間がかかることがあります。しばらく時間が経過しても画面が変わらない場合には、ブラウザをリロードしてみてください。
-
「カテゴリー」画面右上の「新規追加(Add category)」から「新しいカテゴリー(New category)」をクリック。
-
カテゴリーをクリックして見てみます。
1.2.ビジネス用語
-
各種データ資産などに紐付けて、ユーザがデータ等を検索しやすくするためにビジネス用語を事前に登録しておきます。
-
組織内部でのコミュニケーションを円滑にすすめるためにも、共通の語彙・用語集は必要です。その整備にも使える機能となります。
-
なお、組織でのコミュニケーションと語彙・用語集の必要性については、こちらのブログも参考にしてみてください。
-
無料のライト版では登録出来るビジネス用語は5つまでです。
-
ビジネス用語についての公式ドキュメントは、こちらを参考にして下さい。
1.2.1.ビジネス用語の追加
1.2.2.ビジネス用語の修正
-
ビジネス用語の内容を修正したい場合は、該当項目の箇所のペンマーク、あるいはプラスのマークをクリックします。
-
ここでは、画面右側の「スチュワード(Stewards)」の項目を追加します。
-
「スチュワード」とは、ビジネス用語を整備する役割を指し、データや用語の詳細な意味を確認したい場合に、それを尋ねる連絡先、という意味になります。
1.3.分類
-
扱う情報に関する機密度などの分類を管理することができます。
-
今回は新たに作成せず、内容を確認するのみとします。
-
分類に関する公式ドキュメントは、こちらをご参考下さい。
-表示されているように、「Confidential」「Personal Information」などの情報が記載されています。
1.4.データ・クラス
-
含まれるデータの型について定義するものです。
-
ライトプランでは、新しいデータクラスを作成できません。
-
データ・クラスに関する公式ドキュメントは、こちらをご参照下さい。
-
以下はEmailAddressの内容です。
-
データの突き合わせ方式は、複数の方式から選択が可能です。「突き合わせ方式」の横のペンマークを選択すると、内容を確認・選択できます。
1.5.データ保護ルール
- データ保護ルールについての公式ドキュメントについては、こちらを参考にして下さい。
1.5.1.データ保護ルール作成
「データ保護ルール」をクリックして、「次へ(Next)」ボタンをクリック。
-
名前、説明を入力し、「基準」の箇所には合致条件を選択する。
-
アクションの箇所には、条件に合致した場合に取るアクションを選択する。
1.5.2.データ保護ルール確認
2.コラボレータ招待
- データのマスキングは、データの管理者からはマスキングされたようには見えません。
- そのため、別な環境のユーザをコラボレータとして招待し、マスキングしたデータを観てもらうための下準備の作業です。
- 準備として2段階あります。
- A.IBM Cloudのユーザとして招待
- B.Watson Knowledge Catalog のユーザとして招待。
- 以下では、A.の作業を実施します。
- ハンズオンの場においては、同時に受講される方、あるいは講師、あるいはご自分で既に持っているIBMid等を招待する対象としてみて下さい。
- 準備として2段階あります。
- 以下の手順は、こちらの動画でも解説しています。参考にしてみて下さい。
2.1.IAM管理画面からコラボレータ招待。
2.1.1.アクセス・グループの作成
-
画面右上のハンバーガーメニューから、「管理」⇛「アクセス(IAM)」をクリック。
2.1.2.アクセス・権限の作成と割り当て
2.1.3.アクセスグループへのユーザーの割り当て
2.2.招待された側の画面での操作
- ここまでが、招待された側の画面でした。
2.3.招待したユーザの状況を確認
3.データカタログ
- 各種成果物を登録出来るカタログを作成します。
- なお、ライト版で作成できるカタログは一つだけです。
- データカタログに関する公式ドキュメントは、こちらをご参考下さい。
- こちらの動画で、以下手順を解説していますので、参考にしてみてください。
3.1.カタログ作成
-
IBM Cloud Pak for Data画面左上のハンバーガーメニューから「カタログ」から「すべてのカタログを表示」をクリック。
-
名前と説明を入力し、ストレージを設定します。
-
この記事では「データ保護およびデータ・ロケーション・ルールの適用」にチェックを入れています。
3.1.1.ポリシーが適用されていることを確認。
「設定」タブを確認し、ガバナンスポリシーが適用されていることを確認。
3.2.各種データ資産追加
3.2.1. ローカル・ファイルの追加
-
画面左上箇所に手持ちのcsvファイルをドラッグアンドドロップする。
-
なおこのファイルは手順の2.デモ用データを準備するにて作成したもの。
-
内容としては個人情報のようですが、実はこのサイトで生成した疑似個人情報なので、内容を公開しても問題はありません。
-
説明としては2020年度のオンライン顧客情報(ダミー)とし、ビジネス用語として「オンライン顧客」、タグとして「個人情報」「2020」を入力。
-
分類としては「Personal Information」と入力。
-
「ロケーション」「主権」に関しては今回(2023年2月末時点で)は使用しませんので、そのままにしておいてください。
3.2.1.1. プロファイル画面での、データ・クラスの見直し
-
こちらの動画で、プロファイルの解説を行っていますので、参考にしてみてください。
-
プロファイルが完成している場合、データクラスを見直してみます。データ資産の「プロファイル」タブをクリックします。
-
例えば人名の箇所が未分類だったりした場合は、別なデータクラス(Personal Name)等に修正します。
-
以下の例では、データ・クラスが「Identifier」のものを「Person Name」に編集します。
「Identifier」横の下向き矢印をクリックして「すべて表示」をクリック。
3.2.2.「接続」定義の追加
3.2.2.1.前提事項
- 以下の手順にて、Db2へのデータロードが完了していることが前提となります。
3.2.2.2.接続の登録作業
3.2.3.「接続された資産」の追加
3.2.4.メタデータインポートによるデータ資産のカタログへの追加
- こちらのリンク先にて手順をご参照ください。
3.3.カタログの「アクセス制御」画面からコラボレータ招待。
-
データのマスキングは、データの管理者からはマスキングされたようには見えません。
-
そのため、別な環境のユーザをコラボレータとして招待し、マスキングしたデータを観てもらうための下準備の作業です。
- 準備として2段階あります。
- A.IBM Cloudのユーザとして招待
- B.Watson Knowledge Catalog のユーザとして招待。
- 以下では、B.の作業を実施します。
- ハンズオンの場においては、同時に受講される方、あるいは講師、あるいはご自分で既に持っているIBMid等を招待する対象としてみて下さい。
- 準備として2段階あります。
-
カタログへのコラボレータの追加についての公式ドキュメントは、こちらを参考にして下さい。
「アクセス制御」画面に、ビューアとして新たにユーザが追加されていることを確認。
3.4.招待されたユーザ側で、マスキングを確認。
- (ここからは招待されたユーザー側の画面になります。)
招待されたユーザは、「すべてのカタログ」画面で新たにカタログが追加されていることを確認。(ビューアーと表示されているもの)
-
データ資産の「資産」タブを確認する。マスキングされていることがわかります。
-
(以下の例では、「電話番号」が無意味な文字に変換されています。)
-
ある程度時間が経つとマスクされたデータが表示されます。
-
ここでは、以下のものがマスキングされています。
4.プロジェクト作成
-
プロジェクトとは、テーマやチーム毎に作成される、分析を行うためのある種のサンドボックス的な位置付けの箱のようなものです。ここで様々なデータや分析ツールを一元管理できます。
-
プロジェクトに関する公式ドキュメントについてはこちらを参考にして下さい。
5. メタデータインポート
- 以下記事を参考に、メタデータを一括でインポートしてみてください。
- メタデータインポートを使ってSnowflakeの超巨大テーブル群から一括でメタデータを取り込んでみた。
6. メタデータエンリッチメント
-
以下記事を参考に、メタデータへの用語の紐付け、品質分析等を自動化してみてください。
-
Watson Knowledge Catalog on CP4DaaS / Metadata Enrichment 機能について
-
Watson Knowledge Catalog for CP4DaaS の Metadata Enrichment でビジネス用語を自動アサインしてみた
次のハンズオン
- 3.分析編 はこちらです。