Watson Queryは、データの物理的なフォーマットや場所を理解する必要がなく、データを移動させることなくアクセス、操作(=データ仮想化)、分析を可能にするIBMCloudのSaaSのサービスです。
Watson Knowledge Catalogと連携することで、仮想化の際にビジネス用語を列名に割り当てができたり、テクニカルプレビューですが、メールアドレスなどの個人情報などみせたくない情報のマスキング処理などができます。
どちらのサービスもSaaS版にはLiteプランがあり、無料でお試し可能です。
当記事はWatson Query(SaaS版)で仮想化されたデータのメールアドレスをマスキングする方法について説明します。この機能は2023年3月27日現在、テクニカル・プレビューとなっており、まだ正式機能ではありません。
参考資料: Watson Query でのデータ保護ルールによる仮想データの管理
0. 前提
- Watson Queryのインスタンス作成済み
- Watson Knowledge CatalogのインスタンスがWatsonQueryと同じリージョンに作成済み
- Watson Query SaaS版とWatson Knowledge Catalog SaaS版の連携設定が実施済み
- Watson QueryにWKCのガバナンス・ルールを適用するための事前設定が実施済み
- Cloud Pak for Data servicesにログイン済み
1. ガバナンス→ルール画面の表示
Cloud Pak for Data の左上のナビゲーションメニュー(≡)から「ガバナンス」→「ルール」をクリック
2. ルールの追加
2-2. 「データ保護ルール」 をクリックして選択し、「次へ」をクリック
2-3. 左側「ルールの詳細」の名前に、わかりやすいルール名を入力
ここでは 「e-mailマスキング」 としました。
必要に応じてビジネス定義も入れます。
2-4. 右側「ルール・ビルダー」の「基準」の「条件」を設定
どんなデータをマスキングしたいか条件を設定します。
条件として以下の値が設定できます。条件は OR かANDで繋いで複数条件の組み合わせが可能です。
ここではメールアドレスをマスキングしたいので、「データクラス」を選び、「次のいずれかを含む」を選択します。
さらに「データクラスの検索」にmail
と入力し, 表示された「Email Address」を選択します。
2-4. 右側「ルール・ビルダー」の「アクション」を設定、「作成」をクリック
ここでは「列のマスキング」を設定します。
「次を含む列」で「データ・クラス」を選択します。
すると「データのマスク方法を選択」という部分が下に表示されるので、お好みのマスキング方法をクリックして選択します。ここではXで置換する「編集」を選択します。
最後に「作成」をクリックします。
これでメールアドレスをマスキングするルールが設定されました。
早速メールアドレスを持つデータを含むテーブル仮想化して、あるいはメールアドレスを持つデータを含む仮想化既存データを確認してみましょう。
3. マスキングの確認
3-1. Watson Queryから確認
Watson Queryから確認する場合、仮想化したユーザー以外のIDでログインし、確認する必要があります。
そのユーザーIDはWatson Queryを作成したアカウントにJOIN済みでWatson Queryへのアクセスできる権限が必要です。
またマスキングを確認したい仮想化済テーブルへのアクセス権が必要です。
仮想化データの︙メニューから「アクセス権限の管理」を選択し、「Specific users」を選択して、IDごとに権限をつけるか、「すべてのデータ仮想化ユーザー」を選択し、アカウントのすべての仮想化ユーザーに権限をつけるか どちらかで設定してください。
こちらが権限のある別IDでログインし、仮想化のプレビューをした結果です。
メールアドレスがXXXXでマスキングされています。
3-2. 外部SQLツール DBeaverから確認
「DBeaverからWatsonQueryにアクセスする」 を参考にDB Tool DBeaverからアクセスしてみます。
以上です。
尚、仮想化のマスキング機能は2023年3月27日現在、テクニカル・プレビューとなっており、まだ正式機能ではないことをご注意ください。