はじめに
watsonx.dataは、オープンなテクノロジーに基づくIBMの新しいデータストア・ソリューションです。
次のような特徴があります。
・オープンな表フォーマット(Icebergなど)を採用しているため、他システムとのデータ共有が複製なしでできる
・ストレージにブロック・ストレージよりも安価なオブジェクト・ストレージを採用している
・データの物理統合、仮想統合、これらの組み合わせ(異種データを仮想統合し、オブジェクト・ストレージへアーカイブ、オフロードする等)ができる
・複数のクエリーエンジンを目的別に選択できる
・ソフトウェア版とSaaS版があり、デプロイメントがフレキシブル
・データ・ガバナンス製品IBM Knowledge Catalogとの併用でセンシティブな個人情報のデータマスキングや生成AIによるメタデータの付与ができる
・生成AIの開発実行製品watsonx.aiを自社のデータでカスタマイズするためのベクトルデータベース(Milvus)機能を提供する(実装済み)
「さわってみよう watsonx.data #1 ~初めの一歩編~ 」ではこのような特徴を持つwatsonx.dataを前提知識なしでさわってみたい方を対象としています。
取り上げる内容は次のとおりです。
ハンズオンとしてご体験いただく想定でこれらを分割して記事投稿いたします。
・watsonx.dataへのログイン
・インフラストラクチャー・マネージャー(3階層コンポーネントを知る)
・データ・マネージャー(データの探索)
・照会ワークスペース(データの照会)
・照会履歴(照会の監査(過去に実行されたSQLの表示))
・スキーマの作成
・データの取り込み(都内WiFiスポットの緯度、経度が記録されたCSVファイル)
・データの照会(地理空間関数で東京駅に近い都内WiFiスポットの件数を調べる)
・アクセス制御(インフラとデータに対するユーザー単位での制御)
watsonx.data Developerバージョンが既に導入されている想定となっています。
導入方法については、watsonx.dataのマニュアルなどを参考にしてください。
マニュアルは、インターネットの検索エンジンで検索語"watsonx.data developer version"などで検索可能です。
(IBMのビジネスパートナーの方は、IBM Technology Zoneにて、watsonx.data環境を簡単にプロビジョニングしてご利用いただくこともできます。これをご利用される場合、導入は不要です。詳細は御社担当IBM営業担当者経由でお問い合わせください。)
watsonx.dataは、目的・用途別に複数のクエリー・エンジンを使い分けることができます。
この記事では、watsonx.data Developerバージョンで利用できるPrestoエンジンを想定しています。
初回(Part 1)となる当記事では、前述の内容のうち、
・watsonx.dataへのログイン
・インフラストラクチャー・マネージャー(3階層コンポーネントを知る)
・データ・マネージャー(データの探索)
までを取り扱います。
watsonx.data(Presto)への接続方法
接続方法として次のものがありますが、このハンズオンでは最初にリストされている、Web GUIを使います。
watsonx.data GUI
Presto JDBC
Presto CLI (コマンド)
Python スクリプト
watsonx.data API
watsonx.dataへのログイン
watsonx.dataを導入、起動し、ユーザーID、パスワードにてログインすると下記のような画面が表示されます。
画面左上の”ホーム”アイコンをクリックするとこの画面へ戻ることができます。画面をスクロールダウンして、どのような情報が表示されているか確認してください。”FAQ“へのリンクなども試してください。
インフラストラクチャー・マネージャー
“ホーム”アイコンのすぐ下のアイコンをクリックしてください。インフラストラクチャー・マネージャーが表示されます。これはwatsonx.dataの設計ツールです。
watsonx.dataは3階層のコンポーネントから構成されています。それらは、(照会)エンジン、カタログ、バケットです。
エンジン、カタログ、バケットの各アイコンをひとつずつクリックしてみてください。詳細な情報へアクセスすることができます。
詳細な情報にはタブがあり、”データ・オブジェクト”、”アクセス制御”などの情報も調べることができます。
このハンズオンの対象外となりますが、画面右上の”コンポーネントの追加”ボタンを押すと、バケット(オブジェクト・ストレージ上のデータ)やデーベースの追加ができ、設計変更が可能です。
追加したデータソースに対しても、単一のPresto SQLでアクセスできます。異種データソース間のJOINも可能です。
データ・マネージャー
データ・マネージャーは “SQL”アイコンのすぐ上のアイコンで呼び出せます。
ファイル・マネージャーのような操作感でデータの探索ができます。
カタログ->スキーマ->表という階層で表示されます。操作してみてください。
スキーマの作成やローカルPCのデータファイルから表を作成し、データを取り込むこともできます。これらは今後の記事Partで解説します。
データ・マネージャーで、表を選択後、タブの”サンプル・データ”を選択すると、実際にどのようなデータが入っているのか確認できます。
タブの”表スキーマ”では、列名やデータタイプなどを確認することができます。
タブの”DDL”では、CREATE TABLE文を確認できます。
Part 1のまとめ
・watsonx.dataへログインすると、画面から稼働状況が把握できるだけでなく、FAQなどへジャンプできます
・watsonx.dataの設計ツール、インフラストラクチャー・マネージャーについて学びました。
・watsonx.dataは、3階層になっていて、それらは、エンジン、カタログ、バケットです。
・データ探索のツール、データ・マネージャーについて学びました。
・データ・マネージャーは、カタログ->スキーマ->表という階層でオブジェクトを表示します。
・データ・マネージャーは、データのサンプルや表のDDLが確認できるだけでなく、スキーマの作成やローカルPCのデータファイルから表を作成することもできます(今後の記事Partでご紹介)
Part 2に続きます。
https://qiita.com/ibm_tk/items/19f3bdd57faeb7aea2de