Watson Queryは、データの物理的なフォーマットや場所を理解する必要がなく、データを移動させることなくアクセス、操作(=データ仮想化)、分析を可能にするIBMCloudのSaaSのサービスです。
以前の名前はData Virtualizationとなっていましたが、この名前はSW版のみの名前となり、SaaS版はWatson Queryという名前になりました。
この名前の変更と同時に、Liteプランが登場し、作成してから1ヶ月で削除されてしまうのですが、無料で使えるようになりました。
Watson Queryのサービス作成方法は、@Shumpei_Kuboさんのこちらの記事「データ仮想化機能である Watson Query を有効化する。」 を参考に作成してみてください。
この記事はWatson QueryでIBM Object Storage(ICOS)上のCSVファイルを仮想化する手順を説明します。GUIなど変更が頻繁ですが、この情報は2022/01/28時点の情報です。
参考: Virtualizing data with Watson Query
#1. IBM Object Storage(ICOS)にCSVファイルを準備
ちょっと説明が長いです・・・・
オブジェクトストレージからの仮想化はPARQUET(またはPARQUETFILE)、ORC(Optimized Row Columnar)、CSV(Comma Separated Values)、TSV(TAB Separated Values)、JSONデータ形式がサポートされています。
- CSVファイル、TSVファイルの場合、.csv、.tsvのファイル拡張子が必要です。
JSONファイルの場合、.jsonのファイル拡張子が必要です。 - PARQUET または PARQUETFILE の場合、ファイル拡張子は必要ありません。メタデータはデータファイルから抽出されます。
- ORCの場合、ファイル拡張子は必要ありません。メタデータはデータファイルから抽出されます。
Watson Queryで仮想化できるファイルには少々制約があります。以下は主な制約です。
(2022/01/25現在の情報)
- 引用符文字
'
,"
を含むデータは使用できません。 - CSV、TSV、JSON 形式はUTF-8 文字エンコーディングのみがサポートされます。
- テーブルの最大列数は 2048列 までサポートしますが、表示は最大 1012 列までです。
そして、
-
仮想化対象ファイルはフォルダーの下にないといけない
- フォルダーの概念はObectStorageには実はないので、ファイル名の前にスラッシュで区切られた文字列がフォルダとして認識されます。
- OK: folder1/file1.csv
- NG: file1.csv
- フォルダーの概念はObectStorageには実はないので、ファイル名の前にスラッシュで区切られた文字列がフォルダとして認識されます。
-
1つのフォルダーの中の全てのcsvが仮想化対象、
- 1つのフォルダー複数ファイルがあれば、それは全て1つの仮想化テーブルにデータが入る
- つまりファイルを1つ1つ別々に仮想化したければ、別々のフォルダに入れる
もうフォルダ名を考えるのも面倒な制約な気がしますが、迷ったらICOS上のファイル名は
ファイル名/ファイル名
みたいにスラッシュで重ねてしまえば、わかりやすいし(?)よいかと思います。
例: TEST.CSV
をICOS上ではTESTCSV/TEST.CSV
として保存
すでにフォルダなしでICOS保存済みのファイルはコピーして名前を変えてしまえばよいです。
ただコピーはIBM CloudのGUIではできない、かつ同じファイル名はオブジェクトのプレフィックスでフォルダ名を入れてもアップロードできないので、以下に記載のにpythonのコードで簡単にコピーして名前も指定し、やってみてください。
IBM Cloud Object Storage (ICOS) をpythonから操作の 5. ファイルのコピー
まとめると
準備としてはフォルダー付きのCSVファイルをICOSのどこかのBucketに入れておいてください。
TEST.CSV/TEST.CSV
みたいな感じです。(特にファイル名と同じフォルダ名が必須というわけではないです)
#2. IBM Object Storage上のCSVファイルを仮想化
いよいよ本題です!
参考: Creating a virtualized table from files in cloud object storage in Data Virtualization
##2-1. データソースの追加
データソースはICOSバケットごとに一度登録すればよいです。毎回登録の必要はありません。
###1. 準備
ICOSの以下の情報を取得しておきます。尚資格情報はいろいろな組み合わせで設定可能なようにみえるのですが、2022/01/26現在はAccess Key
と Secret key
の組み合わせのみ設定可能でした(そのうち他も対応される???)。
- バケット名(パケット限定が必要な場合)
- エンドポイント
- 操作するICOSの以下の資格情報
- access_key_id
- secret_access_key
資格情報を作成する際、access_key_idとsecret_access_keyを取得するため、詳細オプションから「HMAC資格情報を含める」をオンにして作成してください。
取得方法はIBM Cloud Object Storage (ICOS) をpythonから操作の 1.準備を参考にしてください。
access_key_idとsecret_access_keyはサービス資格情報の鍵名をクリックすると表示される
access_key_idとsecret_access_keyの値です。
###2. メニューから「Data Virtualization」をクリック
###3. 「データーソース」の画面が表示されるので、「接続の追加」をクリック。
すでに接続したいICOSに対してプラットフォーム接続を作成済みの場合は、そこから選択できます。その場合は「既存の接続」をクリックして進めてください。
ここでは、「新しい接続」を作成するとして進めます。「新しい接続」をクリックしてください。
###4. 「Cloud Object Storage」をクリックし、「選択」をクリック
「Cloud Object Storage」が見つけにくいので、検索フィールドにcloud
と入力すると絞られます。
###5. 接続情報を記入
-
接続の概要
- 名前: 適当な名前を入れる
-
接続の詳細
- パケット: アクセスするバケットを限定したい場合は、仮想化するファイルのあるバケット名(必須ではないです)
- ログイン URL: エンドポイントを
https://
付きで記入
-
資格情報
- Authentication method:
Access Key and Secret key
を選択- 2022/01/26現在は
Access Key
とSecret key
の組み合わせのみ保存可能でした。
- 2022/01/26現在は
- アクセス・キー: 接続するICOSのaccess_key_id
- 秘密鍵(アクセス・キーを入力すると入力欄が表示されます): 接続するICOSのsecret_access_key
- Authentication method:
###6. 「接続のテスト」をクリックし接続をテスト
「テストは正常に終了しました。」の表示を確認。
エラーがあれば、情報を修正する。
##2-2. 仮想化
###1. 「データソース」の右のV
をクリックして、「仮想化」をクリック。
###2. 「ファイル」をクリックし、仮想したいファイルの入っているデータソースのエンドポイントの文字列をクリック。
最初はデフォルトで「表」なので、「ファイル」をクリックしてください。
###3. バケット名をクリック
バケット名がデータソースに設定されている場合はを最初から表示済み。
バケット名がデータソースに設定されてない場合は、バケット名を「パケット」の入力欄に入力すると表示されます。ワイルドカード指定機能などないので、一字一句正しいバケット名を入れる必要があります(自動的にバケット名の候補を全部出してくれるとか、そういう親切機能は現状ありませんでした)。
###3. フォルダー名をクリック
パケット直下のTEST_1.CSVは残念ながら仮想化できません。一見中身も見えてできそうなんですが、、、、。2022/01/26現在はあくまでもフォルダー単位です。
仮想化したいファイルが入っているフォルダの目玉マークをクリックすると、フォルダー内の最初のファイルをプレビューすることができます。 ここからでもカートに追加できます。
ここではカートに追加ぜずに、さらにフォルダーを開いてプレビューしてみます。
仮想化したいファイルが入っているフォルダーの目玉以外のエリア(下のイメージでは>
)をクリックし、フォルダの中のファイル一覧を表示します。
###4. ファイルの中身をプレビューし、カートに追加
プレビューしたいファイル名をクリックし、必要に応じて「先頭行を列見出しに使用する」をONにし、問題なければ「カートに追加」をクリックします。
フォルダーに複数ファイルがある場合は、フォルダー内のすべてのファイルを 一つの表として仮想化されます。
###5. 「カートの表示」をクリックして、カートを表示します。
割り当て先(以下の例では「自分の仮想化データ」)、表名、スキーマ名をセット。
必要に応じて右端の︙をクリックし、「列の変更」や「プレビュー」を実施する
下記のメッセージが表示された場合は「Confirm」をクリック
ステータスに「完了」と表示されたら、仮想化完了です。
「自分の仮想化データを表示」をクリックして、確認します。
####7. 「自分の仮想化データ」で確認
仮想化したテーブル名、スキーマ名を確認します。
右端の︙をクリックし、「プレビュー」も可能です。
これで仮想化完了です。
#3. まとめ
IBM Object Storage上のCSVファイルを仮想化はフォルダ単位であることを気をつければ簡単にできます。
またCloud Pak for DataでGoogle Big Query上のテーブルを仮想化してアクセスではGoogle Big Query上のテーブルを仮想化する方法も説明しています(Cloud Pak for DataのData Virtualizationで説明していますが、Watson Queryでも同じ方法です)。ぜひこちらも試してみてください。
以上です。