watsonx.data では、以下のユースケースを実現するために IBM Analytics Engine Spark を使用することが推奨されています。
- 大量のデータのwatsonx.dataテーブルへの取り込み(取り込み前にデータをクレンジングして変換可能)
- watsonx.data テーブルのパフォーマンス向上のためのテーブルのメンテナンス操作
- クエリとして表現するのが難しい複雑な分析ワークロード
「IBM Analytics Engine Sparkからwatsonx.data を操作」ではpythonを使ってwatsonx.dataのテーブルをIBM Analytics Engine instance(Spark)でアクセスする方法について説明します。環境はIBM Cloudです。
IBM Analytics Engine Sparkからwatsonx.data を操作
以下の順序で説明します。この記事は「1. IBM Analytics Engine Spark インスタンスの作成」です。
1. IBM Analytics Engine Spark インスタンスの作成
2. IBM Analytics Engine Spark の構成
3. Sparkによる処理
下の図が全体像です。この記事は①の作成になります。
[図1: 全体像]
尚、この内容は公式ドキュメントProvisioning an Analytics Engine instanceに書かれている内容です。
0. 前提
- 課金可能なIBM Cloud IDが必要です。
- 同じアカウントにIBM Object Storageインスタンスが必要です。インスタンス関連データ (カスタム・ライブラリーや Spark 履歴イベントなど) に使用します。ない場合は事前に作成してください。
- watsonx.dataのインスタンスがあること
1. IBM Cloudにログインし、カタログを表示
https://cloud.ibm.com/catalog にアクセスします。
(ログインしていない場合はログイン画面の後、カタログ画面になります)
2. Analytics Engine
を検索し、表示する
検索窓にAnalytics Engine
と入力し、表示されたAnalytics Engine
をクリックします。
Analytics Engine 作成画面が表示されました。
3. 必要事項を設定し、「作成」をクリック
-
ロケーションの選択
- watsonx.data に近い場所を選んでください
-
プランの選択
- 2023年11月28日現在、標準サーバーレス Spark
のみ選択できます -
サービス名・リソース・グループの選択・タグ・アクセス管理タグ
- デフォルトで入るものを変更したい場合は変更する
-
Spark ランタイムのバージョン
- 新しいものを選択 (記事作成時点ではSpark 3.4)
-
インスタンス・ホーム
最後に右側の「以下のご使用条件を読み、同意します。」にチェックを入れ、「作成」をクリックします。
その後、リソースリストが表示されます。「分析」カテゴリの下に表示されます。
「プロビジョンが進行中」が「アクティブ」になれば使用可能となります。
作成完了したら以下のようになります:
以上です。
NEXT
「2. IBM Analytics Engine Spark の構成」に進みましょう!