1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

PR曲線の全ての座標を求めて散布図で描画する(SPSS Modeler データ加工逆引き8-10)

1
Last updated at Posted at 2022-09-15

PR曲線の全ての座標を求めて散布図で描画する

スクリーンショット 2022-09-05 11.46.28.png

スクリーンショット 2022-08-13 10.43.29.png

1.想定される利用目的

・どの傾向スコアまでを故障/貸倒れ/不正/購入と判定するべきか検討
・予測モデルの性能評価
・実装後のモデルメンテナンスのための性能指標の算出

2.サンプルストリームのダウンロード

3.サンプルストリームの説明

スクリーンショット 2022-08-23 13.43.49.png

a.入力するデータは以下の通りです。ID、不良品(NG)判定、予測、傾向スコアの4フィールドのテーブルです。
スクリーンショット 2022-09-05 10.55.22.png

傾向スコア毎に適合率(Precision)を求める

b.[置換]ノードを編集します。どの傾向スコアまでをNG判定するかを確定するためPR曲線を作るため、この時点では一旦全て予測をNGに置換します。
スクリーンショット 2022-08-23 13.49.26.png

c.[フィールド作成]ノードを編集します。以下の混同行列のFP(False Positive)フラグを作成します。
スクリーンショット 2022-08-23 13.49.51.png

d.cと同じ方法でTP(Ture Positive)フラグを作成します。

e.[レコード集計]ノードを編集します。
スクリーンショット 2022-08-23 13.50.18.png

f.傾向スコア降順でソートします。

g.[フィールド作成]ノードを編集します。FPとTPの累積フィールドを作成します。関数@￰SUMで列方向に累積します。
スクリーンショット 2022-08-23 13.51.17.png

[プレビュー]します。
スクリーンショット 2022-09-05 10.57.11.png

h.[フィールド作成]ノードを編集します。各レコードまでの適合率を求めます。
スクリーンショット 2022-08-23 13.52.24.png

[プレビュー]します。
スクリーンショット 2022-09-05 10.58.32.png

i.[散布図]ノードを実行します。
スクリーンショット 2022-09-05 10.58.59.png

傾向スコア毎に再現率(Recall)を求める

j.傾向スコア昇順でソートします。傾向スコアが低い順にNGではないと予測していきます。

k.[フィールド作成]ノードを編集します。後続処理を想定してbのように置換えをせず、このノードでその意味を持たせます。FNフラグを定義します。
スクリーンショット 2022-09-05 15.24.00.png

l.[フィールド作成]ノードを編集します。gと同じ要領でFNを累積します。
スクリーンショット 2022-08-23 13.54.47.png

m.傾向スコア降順でソートします。傾向スコアが高い順にNGではないと予測していきます。

n.TPフラグを定義します。
スクリーンショット 2022-09-05 15.25.11.png

o.[フィールド作成]ノードを編集します。lと同じ要領でTPを累積します。
スクリーンショット 2022-09-05 11.07.50.png

p.[レコード集計]ノードを編集します。傾向スコア毎にFNとTPの累積値を合計します。
スクリーンショット 2022-08-23 13.55.34.png

[プレビュー]します。
スクリーンショット 2022-09-05 11.09.47.png

q.[フィールド作成]ノードを編集します。再現率をレコード毎に求めます。
スクリーンショット 2022-08-23 13.56.35.png

[プレビュー]します。
スクリーンショット 2022-09-05 11.11.38.png

r.[散布図]ノードを実行します。適合率は傾向スコアが上がると上昇しましたが、再現率は減少します。
スクリーンショット 2022-09-05 11.12.26.png

s.[レコード結合]ノードを編集します。[レコード結合方法]を[キー]にして傾向スコアをキーに内部結合します。
スクリーンショット 2022-08-23 13.57.38.png

ここまでの座標を含むテーブルは以下の通りです。114レコードあります。
スクリーンショット 2022-09-05 11.13.52.png

t.[散布図]ノードを実行します。PR曲線が描画されました。
スクリーンショット 2022-09-05 11.46.28.png

注意事項

不均衡データの場合にはPR曲線を用いて、そうではない場合にはROC曲線が推奨されますが一度、データに当てはめた上で施策適用の視点から比較検討ください。

4.参考情報

モデルの性能指標について解説した記事

PR曲線をStats連携で描画させる方法

SPSS Modeler ノードリファレンス目次

SPSS Modeler 逆引きストリーム集(データ加工)

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?