ROC曲線の全ての座標を求めて散布図で描画する
1.想定される利用目的
・予測モデルの性能評価
・実装後のモデルメンテナンスのための性能指標の算出
2.サンプルストリームのダウンロード
3.サンプルストリームの説明
a.入力するデータは以下の通りです。故障有無と予測、傾向スコアの3列のデータです。

*ROC曲線でカットオフポイントを決めるためこの時点では予測列[$R-故障]は全て1にしています。
評価グラフでROC曲線を描画する
ROC曲線の座標を求めて散布図で描画する
c.[フィールド作成]ノードを編集します。[派生]モードを[フラグ型]にして真になる条件を記述します。

FPは故障を疑ったが、実際には故障ではなかったケースです。以下の混同行列を参照ください。

*同じ目的のノードをc、d、e、fと作成します。
g.[フィールド作成]ノードを編集します。関数@SUMで4つの分類の累積を作成します。@FIELDはワイルドカードです。13のフィールドを同時に処理することが可能です。

[プレビュー]します。混同行列の4つの分類の累積ができました。

h.[レコード集計]ノードを編集します。各分類の最大値を求めます。

i.[レコード結合]ノードを編集します。[キー]をレコード結合方式に選択しますが[キー]はブランクにして全てのレコードにhで求めた累積値を結合します。

j.[フィールド作成]ノードを編集します。感度を求めます。計算式は再現率と同じです。True Positive Rate(TPR)とも呼ばれます。

k.[フィールド作成]ノードを編集します。1-特異度を求めます。特異度は故障がなかったレコードの中で故障が疑われることもなかったレコードの比率=TN/(TN+FP)です。1-特異度は逆に故障がないのに故障が疑われた比率であるためFales Positive Rate(FPR)と呼ばれます。式ではFPを分子にしています。

注意事項
別の目的でストリームにアレンジしやすいように、今回は直接計算に不要な処理(TNとFN)を含めています。
4.参考情報
モデルの性能指標について解説した記事
SPSS StatisticsでROC分析を行う
SPSS Modeler ノードリファレンス目次
SPSS Modeler 逆引きストリーム集(データ加工)










