ROC曲線からカットオフ値を求める(Youden index)
この記事は逆引き8-5,6(ROC曲線)と関連付いて書かれています。
1.想定される利用目的
・どの傾向スコアまでを故障/貸倒れ/不正/購入と予測するのが良いかを検討
・予測モデルの性能評価
・実装後のモデルメンテナンスのための性能指標の算出
2.サンプルストリームのダウンロード
3.サンプルストリームの説明
a.入力するデータは以下の通りです。故障有無と予測、傾向スコアの3列のデータです。
*ROC曲線でカットオフポイントを決めるためこの時点では予測列[$R-故障]は全て1にしています。
カットオフポイントとは
図と表から、予測スコアの値がいくつを上回ったら故障を疑うか検討します。
例としてAとBのスコアで比較します。
A)スコア0.80以上で故障を疑うと感度1なので見逃しはないが1-特異度が0.58と故障でないのに疑う率が高い
B)スコア0.25以上で故障を疑うと1-特異度が0.08と故障でないのに疑う率が低いが感度は0.38で見逃し率が高くなる
このトレードオフにある感度と1-特異度の両方をなるべくバランスよく満たす地点(カットオフ値)を探索します。
感度と1-特異度の差が最大化するポイントを探す
c.この時点でのデータを確認します。赤枠は逆引き8-5を参照ください。
[プレビュー]します。感度と1-特異度が最大化するレコードが特定できました。 この方法(Youden index)では予測スコアは0.5をカットオフ値にします。
注意事項
別の目的でストリームにアレンジしやすいように、今回は直接計算に不要な処理(TNとFN)をストリームに含めています。
実際には見逃し率や濡れ衣率などのバランスは業務の状況と現場の理解を考慮して確定します。
4.参考情報
モデルの性能指標について解説した記事
SPSS StatisticsでROC分析を行う
SPSS Modeler ノードリファレンス目次
SPSS Modeler 逆引きストリーム集(データ加工)