ゲインチャートの座標からGini(AR値)を求める
この記事は逆引き8-5,6,7と関連付いています。そちらも参照ください。
1.想定される利用目的
・予測モデルの性能評価
・実装後のモデルメンテナンスのための性能指標の算出
2.サンプルストリームのダウンロード
3.サンプルストリームの説明
a.入力するデータは以下の通りです。故障有無と予測、傾向スコアの3列のデータです。

c.[精度分析]ノードを実行します。Gini係数は0.583です。逆引き8-6のようにROC曲線のAUCからも求められますが、今回はゲインチャートの座標からGini係数を求めます。

ゲインチャートの座標を求めて[線グラフ]ノードで描画する
d.[フィールド作成]ノードを編集します。関数@SUMを利用して故障=1を累積します。

e.[レコード集計]ノードを編集します。故障の全体数を累積の最大値から1レコードだけ取得します。

f.[レコード結合]ノードを編集します。[レコード結合方法]を[キー]にしますが[キー]をブランクにして1対Nで結合します。

g.[フィールド作成]ノードを編集します。累積プロット(カーブ)を描くため故障の累積比率を求めます。

h.[フィールド作成]ノードを編集します。ベストラインを設定します。列方向に参照するオフセット関数を利用します。[@OFFSET(フィールド,1)]でフィールドの値の1行上を参照します。故障の累積を上に参照してNull(undef)でなければ最大値に達していないため(if)その場合は、その時点でのレコード番号@INDEXを最大値で按分します。それ以降(else)は1になります。🇰🇵

i.[フィールド作成]ノードを編集します。チャートのX軸を作成しています。

j.[サンプリング]ノードで最初の1レコードを抽出して原点(x=0,y=0)を便宜的に作成します。
k.[置換]ノードを編集します。抽出したレコードの値を強制的に0に置き換えます。

l.[レコード追加]ノードでiとhで編集した1レコードにオリジナルの20レコードを追加します。
ゲインチャートの座標からGiniを計算する
累積プロット(赤の実線)は赤の波線で分割し1つの三角形と19の台形(長方形も台形として計算)に見立てて面積を求めます。ベストライン(青の実線)も同じ要領で求めます。

n.[フィールド作成]ノードを編集します。最初の三角形だけはif条件で計算し、それ以外は台形の面積として計算します。

p.[フィールド作成]ノードを編集します。冒頭概要チャートの②/(①+②)を利用してGiniを計算します。

注意事項
スコアを降順にしてどこまで故障を疑うかを確定しますが
実際には見逃し率や濡れ衣率などのバランスは業務の状況と現場の理解を考慮して検討します。
4.参考情報
モデルの性能指標について解説した記事
SPSS Modeler ノードリファレンス目次
SPSS Modeler 逆引きストリーム集(データ加工)









