IBM Cloud Pak for Data の XaaS 版 as a Service の始め方をまとめました。
この記事は、データ利用者向けの内容となっています。SPSS Modelerフローを使用して製造ラインの不良品予測モデルを開発するというシナリオで、Modelerの様々なノードの使い方をご紹介しています。ご参考ください。
#IBM Cloud Pak for Data as a Serviceを始めてみる(19.Modelerフローで不良品件数予測モデルを開発する )
目次
- はじめに
- データの事前準備
- 二つのデータベースのデータをModelerを使って一つのデータにマージする。
- NULL値を0に変換する。(データの前処理例)
- 前処理したデータを新しいcsvとして出力する。
- 予測モデルを作成する。
- 予測モデルをデプロイする。
シリーズ目次
-管理者向け
IBM Cloud Pak for Data as a Serviceを始めてみる(1.プロビジョニング編)
-全員
IBM Cloud Pak for Data as a Serviceを始めてみる(2.ログイン編)
-データ利用者向け
IBM Cloud Pak for Data as a Serviceを始めてみる(3.分析環境編)
IBM Cloud Pak for Data as a Serviceを始めてみる(4.データの前処理編)
IBM Cloud Pak for Data as a Serviceを始めてみる(5.モデルの自動作成)
IBM Cloud Pak for Data as a Serviceを始めてみる(6.モデルのデプロイと呼び出し)
[IBM Cloud Pak for Data as a Serviceを始めてみる(7.ダッシュボードの作成)]
(https://qiita.com/Asuka_Saito/items/79a3b9cd7f65b45d04a3)
-データ提供者向け
IBM Cloud Pak for Data as a Serviceを始めてみる(8.カタログの作成)
IBM Cloud Pak for Data as a Serviceを始めてみる(9.ビジネス用語の作成)
IBM Cloud Pak for Data as a Serviceを始めてみる(10.メタデータのインポート)
IBM Cloud Pak for Data as a Serviceを始めてみる(11.ビジネス用語の割り当て)
-データ利用者向け
IBM Cloud Pak for Data as a Serviceを始めてみる(12.カタログ検索してデータを見つける)
-管理者向け
IBM Cloud Pak for Data as a Serviceを始めてみる(13.Db2のサービスを追加する)
-その他参考
IBM Cloud Pak for Data as a Serviceを始めてみる(14.GoSalesのデータを使う)
IBM Cloud Pak for Data as a Serviceを始めてみる(15.コールセンターのデータセットを使う)
IBM Cloud Pak for Data as a Serviceを始めてみる(16.Modelerフローのサンプルを使ってみる - 薬剤研究例 )
IBM Cloud Pak for Data as a Serviceを始めてみる(17.Db2のサービスへの接続情報を追加する)
IBM Cloud Pak for Data as a Serviceを始めてみる(18.機能改善やアイディアを投稿する)
IBM Cloud Pak for Data as a Serviceを始めてみる(19.Modelerフローで不良品件数予測モデルを開発する )
IBM Cloud Pak for Data as a Serviceを始めてみる(20.無償プランの枠を使い切った場合)
1. はじめに
この記事では、2つの異なるシステムから予測のもととなるデータを利用して、製造ラインの不良品予測モデルを開発するというシナリオとなっています。
この記事の目的は、Modelerフローでどのようなノードを使うと何ができるか、一つの開発を例にご紹介できればと思っています。皆様もいろいろなノードを使ってみてください。
このハンズオンのシナリオ
2. データの事前準備
モデルを作成する前に、
①不良品発生の製造ラインのデータ(DEFECTIVE_PRODUCT_LIST)と
②製造ロボットのデータ(ROBOT_MAINTENANCE_INFO)を
データベースにインポートする下準備から始めたいと思います。
IBM Cloud Pak for Data as a Serviceに Db2 のLiteプランをまだ追加していない場合は、こちらをご覧いただき、追加するところから実施してみてください。
IBM Cloud Pak for Data as a Serviceを始めてみる(13.Db2のサービスを追加する)
次に、こちらのGitHubからDEFECTIVE_PRODUCT_LIST.csvとROBOT_MAINTENANCE_INFO.csvファイルをダウンロードして、Db2にインポートします。
インポート方法はIBM Cloud Pak for Data as a Serviceを始めてみる(13.Db2のサービスを追加する)の「3.データのロード」をご参考ください。
また、プロジェクト内に、このデータベースへの接続情報を作成しておきます。作成方法はIBM Cloud Pak for Data as a Serviceを始めてみる(17.Db2のサービスへの接続情報を追加する)をご確認ください。
3.二つのデータベースのデータをModelerを使って一つのデータにマージする。
3-1. IBM Cloud Pak for Data as a Serviceにログインし、TOPページを表示します。すでに、IBM Cloud Pak for Data as a Serviceを始めてみる(3.分析環境編)でプロジェクトを作成している場合は、「最近使用したプロジェクト」にプロジェクト名が表示されますので、クリックします。ない場合はプロジェクトを新規に作成してください。
3-2. 資産タブに移動して「プロジェクトに追加」をクリックし「Modelerフロー」を追加します。
3-4.Modelerフローのパレットが開きました。左側のメニューから「インポート > データ資産」を選択して、パレットに追加します。2個追加してください。
3-5.一つ目に追加した「データ資産」のノードをクリックして、「データ資産の変更」をクリックします。
3-6. 「接続」をクリックし、事前に作成しておいた接続情報の名前をクリックして、事前にロードしておいたデータ(DEFECTIVE_PRODUCT_LIST)を選択し、「OK」をクリックします。
3-7.前の画面に戻るので、設定されたことを確認し「保存」をクリックします。
3-8.同様の手順で、2つ目のデータ資産ノードに、「ROBOT_MAINTENANCE_INFO」を設定します。
その後、左側のメニューの「レコード操作 > マージ」を追加し、それぞれのデータ資産ノードから矢印を引っ張ってつなぎます。
3-9. DEFECTIVE_PRODUCT_LISTとROBOT_MAINTENANCE_INFOは「ROBOT」「FACTORY_LINE」でJoinができるため、このキーを元に、これからデータをマージします。
マージノードをダブルクリックし、マージ法で「キー」を選んで、列の追加で「ROBOT」「FACTORY_LINE」を追加します。設定したら「保存」をクリックします。
3-10.ここまでで、データの傾向を確認したいので、パレットに「出力 > データ検査」を追加し、マージノードと矢印でつなぎます。データ検査ノードの右上で右クリックし「実行」をクリックします。
3-11.データが出力されたので、右側の「開く」のアイコンをクリックして中身を確認します。
3-12.それぞれの項目のデータの傾向を確認することができます。下の方にスクロールすると、QUANTITYにNULL値があることがわかりました。次にNULL値を0に変換していきたいと思います。
4. NULL値を0に変換する。(データの前処理例)
4-1.「フローに戻る」をクリックして、Modelerフローのパレットに戻ります。
4-2. 左側のメニューから「フィールド操作 > 置換」を選択し、パレットに追加して、マージノードと矢印でつなぎます。
4-3. 置換ノードをダブルクリックし、「列の追加」をクリックして「QUANTITY」を追加し、置換する値に「ヌル値」を指定します。
下の方にスクロールして「置換文字列」に0をセットし「保存」をクリックします。
4-4.再度「出力 > データ検査」をパレットに追加し、置換ノードと矢印でつないで、データ検査ノードを実行します。
4-5.先ほどと同様に中身を確認します。QUANTITYのNULL値が0に変換されているので、NULL Valueの数が0になっているのを確認できます。
4-6.次に、日付、ライン、ロボット別に不良品件数を集計し、これを予測の教師データとしたいと思います。「レコード操作 > 集計」をパレットに追加して、置換ノードとつなぎ、集計ノードをダブルクリックします。
4-7.キー・フィールドで「列の追加」をクリックし、FACTORY_LINE、ROBOT、DATEを追加します。
集計フィールドでQUANTITYを追加します。meanは外して、sumだけにします。
デフォルト・モードでもmeanは外して、sumだけにします。レコードカウントを含めるのチェックをはずし、保存をクリックします。
4-8.データの中身を確認したいと思います。「出力 > 表」をパレットに追加して、表ノードを右クリックし、実行します。
4-9.出力されたデータを確認します。QUANTITY_Sumに集計値がセットされています。
5. 前処理したデータを新しいcsvとして出力する。
5-1. 2つのデータベースのデータをマージし、NULL値を0に変換し、QUANTITYも集計したので、ここで、一旦データを新しいcsvに出力したいと思います。
左側のメニューから「エクスポート > データ資産エクスポート」を選択して、パレットに追加し、置換ノードを矢印でつなぎ、実行します。
(ファイルはデフォルトではoutput.csvというファイル名で出力されます。もしすでに同じファイル名でファイルが分析プロジェクトにある場合、エラーになるので、この場合は、データ資産エクスポートノードをダブルクリックして、出力ファイル名を別の名前にしてください。)
5-2.分析プロジェクトの資産タブに戻って、csvが出力されているか確認します。
6. 予測モデルを作成する
6-1.先ほど出力したcsvを使って、不良品件数予測モデルを作成します。Modelerフローに戻って、パレットに、データ資産ノードを追加します。
6-2. 追加したデータ資産ノードをダブルクリックし、「データ資産の変更」をクリックして、先ほど出力したcsvファイルを指定します。
6-3. 左側のメニューから「フィールド操作 > タイプ」をパレットに追加し、データ資産ノードを矢印でつなぎます。
6-4.タイプノードをダブルクリックし、「値の読み込み」をクリックします。
6-4. ロールの値を編集します。
ここでは、QUANTITY_SumをTargetにし保存します。
6-5. 左側のメニューから「モデル作成 > 自動数値」をパレットに追加して、タイプノードと矢印でつなぎ、自動数値ノードを実行します。
6-7. 左側のメニューから「出力 > 表」を選び、パレットに追加して、作成したモデルと矢印でつなぎ、表ノードを実行します。
6-8.出力結果を確認します。「$XR-QUANTITY_Sum」が不良品の件数の予測値で、「$XRE-QUANTITY_Sum」が予測誤差になります。
7. 予測モデルをデプロイする。
7-1.最後に、作成したモデルをWebサービスとしてデプロイして、アプリケーションから呼び出しできるようにします。
Modelerフローのパレットで先ほど追加した表ノードを右クリックし、「ブランチをモデルとして保存」をクリックします。
以下の画面が表示されたら「閉じる」をクリックします。その後、Modelerフローが表示されますが、分析プロジェクトの資産タブに移ってください。
7-3.分析プロジェクトの資産タブの「モデル」のところに、先ほど保存したモデルが追加されています。追加されたモデルの右端をクリックし「プロモート」をクリックします。
7-4.ターゲット・スペースを選択し、「プロモート」をクリックします。(プロモートするスペースを新規に作成する場合は、「新しいスペース」をクリックします。)
7-5.プロモートされると右側にメッセージが表示されますので、リンクをクリックして、デプロイメント・スペースに移動します。
7-7. オンラインか、バッチを選び、名前を入力し「作成」をクリックします。この記事では都度呼び出しのオンラインを選んでいます。
7-8.右上にデプロイ成功のメッセージが表示されたら、モデル名をクリックします。デプロイ済みと表示されているはずです。名前をクリックします。
7-9.他のアプリケーションからこのモデルを呼び出すためのコードが提供されています。「テスト」タブでは、すぐにモデルを実行して試すことができます。
以下は、不良品数の予測が27.43個で、予測誤差が5.32と結果が返ってきた例です。
{
"predictions": [
{
"fields": [
"FACTORY_LINE",
"ROBOT",
"DATE",
"QUANTITY_Sum",
"$XR-QUANTITY_Sum",
"$XRE-QUANTITY_Sum"
],
"values": [
[
"L100001",
"R1011",
20210901,
0,
27.43161888837767,
5.321905452792361
]
]
}
]
}
以上、Modelerフロー で製造ラインの不良品予測モデルの作成を通じて、いくつかのノードの使い方をご紹介させていただきました。ぜひこの機会にIBM Cloud Pak for Data as a ServiceのModelerフロー をお試しください。