PR曲線の全ての座標を求めて散布図で描画する
1.想定される利用目的
・どの傾向スコアまでを故障/貸倒れ/不正/購入と判定するべきか検討
・予測モデルの性能評価
・実装後のモデルメンテナンスのための性能指標の算出
2.サンプルストリームのダウンロード
3.サンプルストリームの説明
a.入力するデータは以下の通りです。ID、不良品(NG)判定、予測、傾向スコアの4フィールドのテーブルです。

傾向スコア毎に適合率(Precision)を求める
b.[置換]ノードを編集します。どの傾向スコアまでをNG判定するかを確定するためPR曲線を作るため、この時点では一旦全て予測をNGに置換します。

c.[フィールド作成]ノードを編集します。以下の混同行列のFP(False Positive)フラグを作成します。

d.cと同じ方法でTP(Ture Positive)フラグを作成します。
f.傾向スコア降順でソートします。
g.[フィールド作成]ノードを編集します。FPとTPの累積フィールドを作成します。関数@SUMで列方向に累積します。

h.[フィールド作成]ノードを編集します。各レコードまでの適合率を求めます。

傾向スコア毎に再現率(Recall)を求める
j.傾向スコア昇順でソートします。傾向スコアが低い順にNGではないと予測していきます。
k.[フィールド作成]ノードを編集します。後続処理を想定してbのように置換えをせず、このノードでその意味を持たせます。FNフラグを定義します。

l.[フィールド作成]ノードを編集します。gと同じ要領でFNを累積します。

m.傾向スコア降順でソートします。傾向スコアが高い順にNGではないと予測していきます。
o.[フィールド作成]ノードを編集します。lと同じ要領でTPを累積します。

p.[レコード集計]ノードを編集します。傾向スコア毎にFNとTPの累積値を合計します。

q.[フィールド作成]ノードを編集します。再現率をレコード毎に求めます。

r.[散布図]ノードを実行します。適合率は傾向スコアが上がると上昇しましたが、再現率は減少します。

s.[レコード結合]ノードを編集します。[レコード結合方法]を[キー]にして傾向スコアをキーに内部結合します。

ここまでの座標を含むテーブルは以下の通りです。114レコードあります。

t.[散布図]ノードを実行します。PR曲線が描画されました。

注意事項
不均衡データの場合にはPR曲線を用いて、そうではない場合にはROC曲線が推奨されますが一度、データに当てはめた上で施策適用の視点から比較検討ください。
4.参考情報
モデルの性能指標について解説した記事
PR曲線をStats連携で描画させる方法
SPSS Modeler ノードリファレンス目次
SPSS Modeler 逆引きストリーム集(データ加工)









