本記事について

皆様こんにちは。
外資IT企業にて、カスタマーサクセスをしている、Kazuyaです。

本日は、IBM Cloud Pak for Data as a Service を用いた、データ分析業界で注目されている、データ仮想化の実現方法をご紹介したいと思います。

免責事項

本記事は、１個人が作成したものであり、所属する企業を代表する公式文書ではありません。公式な手順と異なる場合や、説明する製品の販売元の推奨と異なる場合がありますので、異なる場合は販売元の推奨に倣うようお願いいたします。
本記事を用いた活動において発生したいかなる損害も、当方では責任を取りかねます。予めご了承ください。

対象者

データ仮想化に興味がある
データ分析でいろいろ苦労している
Cloud Pak for Dataについて詳しくない

Level

100（入門編）

1. データ仮想化って？

そもそも説明に入る前に、データ仮想化ってなんぞや？というところを。

従来では、データ分析のためには、１つの場所（データレイクなど）に、物理的にデータをかき集めることが主流でした。
これは、コスト的にも、そのデータを持ってくるにも、非常に労力とコストがかかる作業でした。

これに対して、データ仮想化は、データソースという接続の情報及び、その接続からリアルタイムで見えるデータの情報を仮想的に１か所に集約するという技術です。

サイロ化したデータを分析するには、一つのプラットフォームにデータをかき集めるためにも都度都度各種データソースもとにアクセスして・・・といった苦労が絶えず、本来分析という作業に注力したいにもかかわらず、それ以前の作業で時間を要してしまう。。
そういった問題を解決することにも、このデータ仮想化は役立てられています。

2. 仮想化を利用する

前提

IBM Cloud にアクセスできるアカウントは既に保有している前提とします。

2.1. IBM Cloud Pak for Data as a Service(以降、CP4DaaSと記載）を開始する

まずは、CP4DaaSにログインします。
「こちら」から、ログイン可能です。
ログイン画面にて、ユーザ名、パスワードを入力してログインします。
ログインすると以下のような画面が表示されます。これがポータルです。

2.2. 環境設定

2.2.1. Watson Knowledge Catalogをインストールする

データ仮想化に必要なサービスを、プラットフォームにインストールしていきます。
Catalogは、データサイエンティストに限定的なデータを公開する場合などに利用します。
まずはナビゲーションバーから、[サービス] > [サービス・カタログ]をクリックします。
※この画像では「ガバナンス」などが表示されていますが、Watson Knowledge Catalog(以降、 WKC と表記します)がインストールされていないと、これらは表示されません。

Watson Knowledge Catalogを選択。

プランを選択して作成をクリック

カタログが作成されると、ナビゲーションバーに「ガバナンス」が追加されます。

これで、WKCのセットアップは完了です。

2.2.2. Watson Queryをインストールする

こちらが、データ仮想化に必要なサービスです。
同じく、サービス・カタログを表示します。
Watson Query のキーワードで検索して、選択・インストールします。

プランを選択して、作成します。

サービス・インスタンスのページに遷移しますので、追加された「Watson Query-xx」の状況が「アクティブ」になるまで待ちます。

完了した後、ブラウザをリロードすると、ナビゲーションに[データ] >[データ仮想化]が表示されます。

これで、Watson Queryの追加は完了です。

2.2. プラットフォーム接続を追加する

現在のCP4DaaS上で利用するデータ接続を作成していきます。
これは、ナビゲーションの[データ] > [プラットフォーム接続]にて、プラットフォーム全体で利用する接続が作成できます。

最初にプラットフォーム接続を追加しようとすると、プラットフォーム全体のオブジェクトを格納するためのデフォルトカタログがないという画面が表示される場合があります。この場合、次のような画面が表示されますので、[Create catalog]をクリックして、作成します。

表示された画面でデフォルトを受け入れて、作成します。作成完了までしばらく待ちます。

作成が完了すると、再度プラットフォーム接続が表示されますので、接続タブから、[新規接続]をクリックします。

接続できるデータソースのリストが表示されます。ここから接続したいデータソースを選択します。
今回は、DB2 on Cloudをデータソースにしたいと思います。

任意の接続名や、接続情報の詳細情報を入力します。接続に必要な情報はデータソース側から入手する必要のある情報です。
入力が完了したら、作成をクリックします。接続設定にエラーがある場合この段階でエラーとなります。画面右上の接続のテストをクリックして試行してもOKです。

設定完了！

2.3. データ仮想化を行っていく

前項で、データソースとの接続を作成しました。
次いで、このデータソースを経由して、仮想のデータ取得を作成していきます。
ナビゲーションバーから、[データ] > [データ仮想化]をクリックします。

仮想化で使うデータソースとの接続を、前項までに作成しているプラットフォーム接続を指定して追加します。
データソースのページが表示されたら、右上プルダウンから「既存の接続」を選択します。

追加する接続を選択して、追加をクリックします。

接続が追加されたことを確認します。

つづいて、追加したデータソース接続を用いて、接続先に存在しているデータの仮想化を行っていきます。
画面左上のプルダウンから、「仮想化」を選択します。

追加済みのプラットフォーム接続の先に存在するテーブルのリストがリストアップされます。
この例では１つしかテーブルが存在しませんが、接続先データソースに複数のエンティティがあれば、複数表示されます。
仮想化したいテーブルを選択して「カートに追加」をクリックし、完了したらカートの表示をクリックします。

仮想化対象として選択したデータソースもとのエンティティが表示されます。内容に認識相違がなければ、画面右上の「仮想化」をクリックします。

仮想化が完了すると、以下のように仮想化成功ステータスの画面が表示されますので、「自分の仮想化データを表示」をクリックして確認します。

これで、データの仮想化自体は完成しました。

2.4. 仮想化したデータをカタログに公開してプラットフォーム内のユーザに公開する

ここまでの手順で、データの仮想化は完了しました。
ただ、この状態では、この仮想化データは、ほかのユーザが利用できません。
ほかのユーザーが利用できるようにするために、この仮想化データを「カタログ」に公開します。

まず、公開先のカタログを作成します。（※デフォルトのプラットフォーム用カタログは利用できません）
[カタログ] > [すべてのカタログを表示]をクリックします。

表示された画面の右上から、「カタログの作成」をクリックします。

カタログ名、説明を入力します。※ストレージがない場合は、追加のインスタンスを下部に記載の通り新規で作成した後最新表示して選択します。
また、データポリシーを設定する必要がある場合は、右側の「データポリシーを適用する」にチェック入れます。これは特定のユーザに見せるデータをmaskingしたりする際に役立ちます。

カタログを作成できましたので、再度ナビゲーションから、[データ] > [データ仮想化]をクリックします。
左上プルダウンから、[自分の仮想化データ]を選択します。
カタログに公開したいデータを選択して、[カタログに公開]を選択します。

選択したら、公開先のカタログを選択します。

先ほど作成したカタログを表示しています。
以下のように、DV_<自動設定された名称>_データソース先の名称で、データが見えるようになります。

開いたら、プロファイルを設定して、仮想化データへの接続認証をアンロックする必要を求められます。
「Authentication method」から、「API Key」を選択します。

API鍵に入力する情報は、以下のどちらかになりますが、共通的なものに利用する場合は、サービス資格情報のAPI鍵を利用します。

Watson Query自体に設定されているサービス資格情報の API 鍵
アクセスしようとしているユーザのIAMに割り当てられている、API 鍵

サービス資格情報を作っていきます。
ナビゲーションバーから、[管理] > [アクセス(IAM)]を選択します。IBM Cloudに遷移します。

IBM Cloudにてナビゲーションバーから、[リソース・リスト]をクリックします。
リソースリストに表示される、Watson Query-xxをクリックします。

表示されたページで、左メニューから「サービス資格情報」をクリックし、「新規資格情報」をクリックします。

任意の名前および、適切な役割を選択して、「追加」をクリックします。

作成されたサービス資格情報の下向き矢印をクリックして展開します。
個々の一番に上に表示された、「apikey」をコピーします。これがAPIキーになります。

CP4DaaSを表示しているブラウザに戻って、API鍵に、上記でコピーしたAPI鍵を入力し、「Connect」をクリックします。

これでデータが見れるようになりました。
試しに、データの「資産」タブをクリックしてみます。
正しく設定されていれば、以下のようにデータが閲覧できるようになります。

試しに、コラボれーたに指定されている、ほかのユーザからも、このカタログが閲覧できる確認してみます。
※カタログに対するアクセス制御の設定を行ってください。

カタログが見れること、資産を表示できるのですが、カタログ内のデータを開いて、資産タブを表示しようとすると、サービス資格情報同様に、個々人のAPI鍵が必要になります。

個人のAPI鍵は以下のように実施します。
このユーザにて、[管理] > [アクセス(IAM)]をクリックします。

ナビゲーションから、「API 鍵」を選択します。

Viewにて、「自分の IBM Cloud APIキー」が選択されていることを確認して、「IBM Cloud APIキーの作成」をクリックします。

任意の名前を設定して作成をクリックします。

作成された後、すぐに、APIキーを表示してコピーします。二度と入手できなくなりますので、紛失に注意してください。
※権限の問題でAPI鍵を個々人が作成できない場合は、管理者がこの作業を代行して、対象者のAPI鍵をお知らせしてあげる運用もあります。

CP4DaaSの画面に戻って、APIKeyを認証メソッドに指定して、先ほどコピーしたAPIキーを指定して、接続してみます。

しかしこれでは権限がなく失敗します。。
これは、カタログへのアクセス権だけではなく、「仮想化環境」というものに対する、対象ユーザの権限がないためです。
そこで、元の管理者アカウントのほうに戻って、当該ユーザに対するアクセス権を、付与していきます。
管理者側のユーザにて、CP4DaaSのページを開いて、ナビゲーションから、[データ] > [データ仮想化]を選択します。
左上プルダウンにて、[ユーザの管理]を選択。
画面右上にある、「アクセス許可」をクリックして、「IBMidユーザの追加」ペインにて、仮想化データをシェアしたいユーザを追加します。

ロールは、データ分析現場における適切なロールを選択してください。

追加が完了した後、先ほどの閲覧側のユーザに戻ってAPI鍵を再度設定して接続をクリックし、以下のように表示できれば完成です！

長くなりましたが、初回の設定さえ終わってしまえば、ガバナンス（maskingなどのセキュリティポリシーなど）も含めて、
容易にデータ分析のできる環境が作成でき、分析の現場のスピードが格段に上がるケースがありえます。

ぜひぜひ皆様、お試しくださいませ。

Thank you for reading my article!
See you next time!

IBM Cloud Pak for Data as a Serviceで、Data Virtualizationを始める（データ仮想化）