前書き
この記事はPart 1の続きです・・・
Cloud Pak for Data (CP4D)の分析プロジェクトでwatsonx.dataに入っているデータを使えるようにしよう
左上にある ハンバーガーメニュー をクリックし、 すべてのプロジェクト を選択します。右端に出てきた 新規プロジェクト を押します。
空のプロジェクトを作成 を選択、 名前 フィールドに好きな名前を付けます(例:tx2023)。右下にある 作成 ボタンを押します。するとこのプロジェクトに入り、左上にあるように 概要 タブが開くので、その隣にある 資産 タブをクリックします。そして、 新規資産 ボタンを押して、これからwatsonx.data(Presto)との接続情報を作っていきます。
データアクセスツールの中にある 接続 を選択します(おそらく、一番上にリストされているでしょう)。ここでは Presto を選択し、右下の 選択 ボタンを押します。
接続の概要にて、 名前 を任意の名前(例:watsonx.data)、接続の詳細での ホスト名またはIPアドレス はPart 1でコピーしておいた、以下の値です。
- ホスト名: ibm-lh-lakehouse-presto-01-presto-svc.cpd.svc.cluster.local
- ポート: 8443
資格情報にて、 ユーザー名 はCP4Dのログインユーザー名、 パスワード を入力します。 ポートはSSL対応 にチェックを入れます。 右上にある 接続のテスト を押して、しばらく待つと、テストは正常に終了しました、の表示が出ます。もしエラーとなった場合は、入力内容を見直してください。 テストは正常に終了しました、が表示されたら、最後に右下の 作成 ボタンを押します。
続けて、 資産のインポート ボタンを押し、今度はPart 1で覗いたdata1とdata2の表データをプロジェクトに登録していきます。
左カラムに接続データ、その右のカラムに接続として watsonx.data(あるいはご自身で命名した名前)、と選択していくとwatsonx.data内のカタログ階層が開いていきます。ここでは前章で見た iceberg_dataカタログにあるcaeスキーマ、その中にあるdata1とdata2を選択していきます。data1 と data2 の複数のチェックボックスをオンにすることができます。最後に右下の インポート ボタンを押します。
これでdata1とdata2がプロジェクト内に登録されました。これらはwatsonx.dataへのリンク情報であり、データを物理的にダウンロードしたわけではありません。
では、SPSSを使って、これらのデータを使ったモデル開発に入っていきましょう。
SPSSでwatsonx.dataに入っているデータを使ってAIモデルを開発しよう
すぐ上のスクリーンショットを参考に、右上にある青色の 新規資産 ボタンを押します。(もしこのボタンが表示されていない 場合、画面中の適当な場所をクリックしてみるか、Webブラウザでリロードをすると表示されます。)グラフィカルビルダーにある SPSS を選択します。名前に好きな名前を付けます(例:cae_model)。最後に作成ボタンを押します。
数10秒ほど経つとSPSSが起動しますので、最初に現れるチュートリアル(フローのデータを追加して開始する、のような表 示)は右上の X を押してスキップするか、青色の次へボタンを5回ほど押しながらチュートリアルを見てください。その結果、下のような画面になるはずです。
左にあるパレットから インポート を展開し、 データ資産 をドラッグして右側の灰色部分のキャンバスにドロップしてください。
次に、右側にドロップしたデータ資産をダブルクリックするとデータ資産を明細化するウィンドウが開くので、カテゴリーとして データ資産、データ資産としてdata1を選択し、右下の 条件抽出 ボタンを押します。その後、変更を 保存 ボタンを押すと、しばらくして登録が完了します。これで、data1の取り込みができました。
data1ノードを右クリックし、 データのプレビュー を選択すると、watsonx.dataに入っているデータを動的に読み出して表示することができていることがわかります。同様にしてdata2も取り込みます。
さて、この先は一般的なSPSSのモデリング作業と同じです!具体的な作業は、こちらを参考にしてください。
まとめ
watsonx.dataとSPSSを同一のCP4Dにインストールした環境を使って、シームレスにAIモデル開発ができることを手順とともに示しました。