この記事について
IBMのデータレイクハウス製品であるwatsonx.dataに入っているデータを使用して、SPSSで材料探索シミュレーションを行う手順をご紹介いたします。
この記事のタイトルからお察しの通り、さわってみようwatsonx.data #1 ~初めの一歩編~がありますので、合わせてご覧ください。
ユースケースのシナリオについて
製造業における研究開発において、複数のパラメーターを調整し、製品の特定の目標仕様を満たす必要がある場面を想定します。例えば、シリコンAの量と薬品Bの量(パラメーター)を調整し、ある粘度(目標仕様)の溶剤を作る、といったケースです。このようなパラメーター調整を行っていきます。
試作品開発、サロゲート・モデル、配合、マテリアルズ・インフォマティクス、プロセス・インフォマティクスなどの分野でのパラメータ最適化を想定しています。ここでは、溶剤の摩擦係数を最適化することをテーマにしています。多くのパラメーターを持つ実験結果を元に、摩擦係数を予測するモデルをいちから作成していきます。
使用する製品について
データの格納場所であるレイクハウスとしてwatsonx.data、データ整形・予測モデルの開発ツールとしてSPSS Modeler Flow(以下、SPSSと略記します)を使用します。また、インフラ環境としては、その2つを同じプラットフォーム上で操作できるようにしているIBM Cloud Pak for Data(以下、CP4Dと略記します)版を使っています。CP4DはIBM Cloudだけではなく主要なメガクラウド、あるいは自社データセンターのオンプレミスで稼働します。
CP4Dはバージョン4.7.3をインストールしています。なお、watsonx.dataはSaaS版、スタンドアロン版、CP4D版と3つのバリエーションがあります。
CP4Dにログイン
(この環境を作成する手順については省略しますが、CP4Dにwatsonx.dataとSPSSをインストールしたものです。単一のCP4Dに2つのサービスが同居しており、両者が内部通信で接続できるようになっています。)
ログインしたあと、左上の ハンバーガーメニュー(横4本線のアイコン)>サービス>サービス・カタログ を開くと、図のようにwatsonx.dataとSPSS Modelerが「有効」すなわちインストール済みの環境であることがわかります。
watsonx.dataに入っているデータを覗いてみよう
左上のハンバーガーメニューをクリックして、現れるメニューからインスタンスを選択します。
lakehouseというインスタンスが見えるので、右端にある縦3つのドットアイコンをクリックしてオープンを選択します。
左端にあるスケジュール表のようなアイコン(データマネージャー)をクリックします。
iceberg_data カタログの左にある三角アイコンをクリックして展開すると、caeスキーマに data1とdata2のテーブルが入っていることがわかります。
これらの表データは私が構築したテスト環境にあらかじめアップロードしておいたものです。その手順は省略しますが、データ自体はこちらからダウンロードできます。
上記は data1 テーブルを選択したときの表示例です。このとき、右側のデータ・サンプルのタブを選択すると、テーブルの内容をプレビューすることができます。
同じことは、SQLでも実行できます。左端にある SQL アイコンを選択したあと、右側のSQL入力フィールドに以下を入力して presto-01で実行 ボタンを押します。
select * from iceberg_data.cae.data1;
Part 2では、このデータをCP4Dの分析プロジェクトから使用する手順に入っていきます。その前に、分析プロジェクトからwatsonx.data(Presto)への接続に使用するホスト名を確認しておきましょう。左端のメニューから インフラストラクチャー・マネージャー に移り、 Presto(presto-01) を選択します。
右下に「Internal host」と「External host」が表示されています。今回は同じCP4D内で watsonx.dataとSPSSが同居しており、それらの間は内部接続が利用できますので、Internal hostの方を使います。右側の「クリップボードにコピー」を押すと、 以下の値がコピーされます。
ibm-lh-lakehouse-presto-01-presto-svc.cpd.svc.cluster.local:8443
Part 2へ続く・・・