1
0

ROC曲線からAUCとGini(AR値)を求める(SPSS Modeler データ加工逆引き8-6)

Last updated at Posted at 2022-09-11

ROC曲線からAUCとGini(AR値)を求める

スクリーンショット 2022-08-18 17.28.39.png

この記事は逆引き8-5(ROC曲線)と関連付いています。そちらも参照ください。

1.想定される利用目的

・予測モデルの性能評価
・実装後のモデルメンテナンスのための性能指標の算出

2.サンプルストリームのダウンロード

3.サンプルストリームの説明

スクリーンショット 2022-08-18 17.32.38.png

a.入力するデータは以下の通りです。故障有無と予測、傾向スコアの3列のデータです。
スクリーンショット 2022-08-18 8.46.18.png

*ROC曲線でカットオフポイントを決めるためこの時点では予測列[$￰R-故障]は全て1にしています。

精度分析ノードでAUCとGiniを求める

b.[精度分析]ノードを編集します。
スクリーンショット 2022-08-18 18.37.11.png

[実行]します。AUCとGiniが表示されました。
スクリーンショット 2022-08-18 18.37.56.png

ROC曲線の座標からAUC(Area Under Curve:曲線の下の面積)を求める

c.この時点でのデータを確認します。赤枠は逆引き8-5を参照ください。
スクリーンショット 2022-08-18 17.37.11.png

そもそも曲線の軌跡は以下のルールで描かれています。
スクリーンショット 2022-08-19 8.35.11.png

曲線の下の面積を求めるためには以下のように12に分割した長方形の面積を個別に計算します。横の長さはここでは全て1/12 = 0.0833 です。12は故障の無いレコード数です。縦の長さは1単位 1/8 = 0.125です。8は故障したレコード数です。
スクリーンショット 2022-08-19 8.15.57.png

d.[フィールド作成]ノードを編集します。関数@￰OFFSET(フィールド,1)で1レコード上の値を参照します。
スクリーンショット 2022-08-18 17.38.13.png

式ビルダーの@￰関数を利用すると簡単に入力できます。
スクリーンショット 2022-08-18 17.39.15.png

[プレビュー]します。2レコード目だけ注目すると縦の辺が0.125でこのあと作る横の辺(1-特異度)が0.0083。2辺を掛けると曲線の最初に作られる長方形の面積(例ではオレンジ)が求められます。
スクリーンショット 2022-08-18 17.40.00.png

e.[フィールド作成]ノードを編集します。長方形の横の辺は1/12で固定したくなりますが全レコード数は20で長方形を作れるのは右スライドした場合のみ。差が出現した時だけになるよう左の座標からの引き算にします。
スクリーンショット 2022-08-18 17.40.25.png

f.[フィールド作成]ノードを編集します。個別の長方形の面積を求めます。
スクリーンショット 2022-08-18 17.40.56.png

スクリーンショット 2022-08-19 8.16.38.png

g.[レコード]ノードを編集します。長方形の面積を合計します。
スクリーンショット 2022-08-18 18.00.03.png

[プレビュー]します。AUCが算出できました。
スクリーンショット 2022-08-18 18.00.39.png

AUCからGini(AR値)を求める

そもそもGini係数はROC曲線ではなくゲインチャートの以下の面積を示します。企業の倒産リスクを判定する際にAR値として利用されるこの値はAUCからシンプルな式で求めることができます。
スクリーンショット 2022-08-18 18.26.53.png

h.[レコード結合]ノードを編集します。GiniをAUCから求めます。 (AUC - 0.5) * 2 で計算できます。
スクリーンショット 2022-08-18 18.01.27.png

[プレビュー]します。
スクリーンショット 2022-08-18 18.01.53.png

注意事項

別の目的でストリームにアレンジしやすいように、今回は直接計算に不要な処理(TNとFN)をストリームに含めています。精度分析で求められるAUCやGiniをあえて手計算しているのはCADSなどの自動処理でモデル性能を監視する際に判断基準として利用するからです。

4.参考情報

モデルの性能指標について解説した記事

SPSS StatisticsでROC分析を行う

SPSS Modeler ノードリファレンス目次

SPSS Modeler 逆引きストリーム集(データ加工)

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0