More than 1 year has passed since last update.

IBM Analytics Engine Sparkからwatsonx.data を操作: 「1. IBM Analytics Engine Spark インスタンスの作成」

Last updated at 2023-12-12Posted at 2023-12-12

watsonx.data では、以下のユースケースを実現するために IBM Analytics Engine Spark を使用することが推奨されています。

大量のデータのwatsonx.dataテーブルへの取り込み(取り込み前にデータをクレンジングして変換可能)
watsonx.data テーブルのパフォーマンス向上のためのテーブルのメンテナンス操作
クエリとして表現するのが難しい複雑な分析ワークロード

「IBM Analytics Engine Sparkからwatsonx.data を操作」ではpythonを使ってwatsonx.dataのテーブルをIBM Analytics Engine instance(Spark)でアクセスする方法について説明します。環境はIBM Cloudです。

IBM Analytics Engine Sparkからwatsonx.data を操作
以下の順序で説明します。この記事は「1. IBM Analytics Engine Spark インスタンスの作成」です。

1. IBM Analytics Engine Spark インスタンスの作成
2. IBM Analytics Engine Spark の構成
 3. Sparkによる処理

下の図が全体像です。この記事は①の作成になります。
[図1: 全体像]

尚、この内容は公式ドキュメントProvisioning an Analytics Engine instanceに書かれている内容です。

0. 前提

課金可能なIBM Cloud IDが必要です。
同じアカウントにIBM Object Storageインスタンスが必要です。インスタンス関連データ (カスタム・ライブラリーや Spark 履歴イベントなど) に使用します。ない場合は事前に作成してください。
watsonx.dataのインスタンスがあること

1. IBM Cloudにログインし、カタログを表示

https://cloud.ibm.com/catalog にアクセスします。
(ログインしていない場合はログイン画面の後、カタログ画面になります)

2. `Analytics Engine`を検索し、表示する

検索窓にAnalytics Engine と入力し、表示されたAnalytics Engineをクリックします。

Analytics Engine　作成画面が表示されました。

3. 必要事項を設定し、「作成」をクリック

ロケーションの選択
- watsonx.data に近い場所を選んでください
プランの選択
　　　　- 2023年11月28日現在、標準サーバーレス Sparkのみ選択できます
サービス名・リソース・グループの選択・タグ・アクセス管理タグ
- デフォルトで入るものを変更したい場合は変更する
Spark ランタイムのバージョン
- 新しいものを選択（記事作成時点ではSpark 3.4）
インスタンス・ホーム
- インスタンス関連データを格納するAnalytics Engineインスタンスのホームとして使用するIBM Cloud Object Storageインスタンスを選択します
- サービス資格情報が必要というメッセージが表示されるので、「サービス資格情報の作成」をクリックします。
- クリック後、以下のような画面が表示されます