はじめに
この記事はDataiku DSS ver6で作成したものです。
ver7に対応した記事が以下となります。ver7対応記事には、explanations等の説明が含まれています。
[ver7.0版]dataiku Academy Tutorial:Scoringをやってみた
Dataiku DSSチュートリアルのScoringをやってみました。
前回からの続き色濃厚なため、他記事も読んでからこちらを読むことを推奨します。
(そもそも、前回をやってないとこの記事の内容は実施できない。)
Dataiku DSSをVirtual Boxを使って利用する方法
Tutorial: Basics(投稿記事、元記事)
Tutorial: From Lab to Flow( 投稿記事、元記事 )
Tutorial: Machine Learning(投稿記事、元記事)
Tutorial: Scoring(今回はここです、元記事)
ちなみに今回使ったDataiku DSSのメジャーバージョンは6です
概要
Tutorial:Scoring
https://academy.dataiku.com/latest/tutorial/scoring/index.html
テーマは変わらず「高収益顧客の分析」です。
今までは、高収益顧客かどうかわかっている、既存の顧客に対して、予測モデルを作成し、精度について論じていました。
今回は、高収益顧客かどうかわからない、新規顧客について高収益顧客かどうかの予測を行っていきたいと思います。
使用プロジェクトについて
前回のTutorial:Machine Learning projectの続きからはじまります。
前回の記事を実施していない方は、実施してからこちらをご参照ください。
最初に、前回のモデル画面のフローへ。
まず、customers_labeledデータセットをクリックしてLABボタンをクリックしてください。
Visual analysisの下に、High revenue analysisという名前で先ほど作成したモデルがありますのでこちらをクリック。
前回いろいろ試したモデル画面に到達できていると思います。
ちなみに、一番良い結果が、Random Forestとなっているはずです。このモデルを使って、新規顧客に対しての予測を行っていきます。
Random Forestの結果をクリックして、モデルのSummary画面に移ります。
#メモ モデル名や詳細は編集可能
モデル名やモデルの詳細を編集することが可能であるため、最も良いモデルの名前やdescriptionを編集しておき、あとからわかるようにしておくことができます。
編集のためには、モデルのSummary画面のモデル名横の薄いペンマークをクリック。
すると、編集画面に移ります。モデル名やモデルの詳細(description)を好きに変更し、SAVEボタンで変更反映できます。
#モデルのデプロイ
モデルをデプロイすることにより、フローに組み込んで予測に使えるようになります。
まず、モデルのSummary画面右上、DEPLOYボタンをクリックします。
ポップアップが出てきます。ここでCREATEボタンを押すことにより、フローに新しいTrainレシピを追加することができます。
Model nameはこのままでも問題ありませんが、わかりやすくRandom Forestに変更します。たくさんモデルをデプロイして試す場合は、別の名前にした方が良いかもしれません。今回は、これしかデプロイしませんので安直なネーミングです。
Model name変更後にCREATEボタンをクリックしてください。CREATEボタンクリックにより、自動的にフロー画面に遷移します。
フロー画面では、右端に二つの緑の四角が追加されています。
左側が今回デプロイしたTrainレシピで、右側がTrainレシピにより作成されたモデルになります。
右側の緑四角、Random Forestモデルをクリックすると、右側のパネルが、Random Forest用のレシピに切り替わります。Random Forestモデルをクリックして選択した状態で、Openアイコンをクリックしてください。
さきほどデプロイしたRandom Forestの精度が記載されたページが表示されます。ここでは詳細は述べませんが、このページからモデルの精度改善(Retrain)を行うことができます。作成したモデルのバージョン管理のようなことも可能です。
次はいよいよ、予測スコアの計算です。
Flowをクリックし、フロー画面に戻りましょう。
予測スコアの計算
ここまででモデル側の準備が終わりました。
最後にデプロイしたモデルを使って、新規顧客データに対しての予測スコア算出を行っていきます。
先ほどと同様に、Random Forest(緑の四角)をクリックした状態で、右側パネルのScoreアイコンをクリックします。
Score a datasetというポップアップウィンドウが開かれますので、以下のように設定してください。
- 左側のInput datasetに予測対象のデータセット(customers_unlabeled_prepared)を設定。これを設定すると、右側のOutput datasetが設定できるようになります。
- Prediction Modelに用いたいモデル(Random Forest)を設定。これはすでにRandom Forestが設定済みだと思います。
- output datasetの名前をNameに設定。任意のデータセット名(ただし、既出のデータセットとかぶらないもの)を記入します。ここでは、customers_unlabeled_scoredとしました。
- 結果の保存先をStore intoで選択。既に選択済みの、filesystem managedを用います。
- 結果の出力フォーマットをFormatで選択。すでに選択済みのCSVを用います。
上記設定後、CREATE RECIPEボタンをクリックします。
数秒後に画面下側に、Job Succeededと出れば成功です。
#予測結果の確認
フロー画面に戻ってみましょう。
新しく、customer_unlabeled_scoredが追加されています。
クリックすることにより、予測結果を確認することができます。
表示されたデータの一番右の3列に予測結果が記載されています。
右の3列はそれぞれ以下の情報が記載されています。
- proba_False : 高収益顧客でない確率
- proba_True : 高収益顧客である確率
- prediction : 予測結果
今回のモデルでは、予測対象の各顧客に対して、高収益顧客であるかどうかを0~1の確率で算出します。これが、proba_Trueに記載されます。この値が高いほど、高収益顧客である可能性が高いと解釈することができます。
一方、proba_Falseはproba_Trueとは逆で、この値が高いほど高収益顧客である可能性が低いと解釈することができます。
これらの値は確率ですので、proba_Falseとproba_Trueを合計すると1になります(多少の計算誤差は含む)。
predictionは、高収益顧客であるかどうかの予測結果です。予測対象の各顧客に対して、True(高収益顧客である)か、False(高収益顧客でない)かが記載されます。モデル作成時に設定された閾値を元に、TrueかFalseかのラベルがつきます。今回は、モデル作成時の閾値が0.525でしたので、0.525を超えればTrue(高収益顧客)となります。
おわりに
今回は、Dataiku DSS上で作成したモデルをどのように新規データに適用するかについて紹介しました。全5回でお送りした、Dataiku DSSの基本的なチュートリアルは、一通り終了となります。
メリークリスマス!