はじめに
SPSS ModelerとSPSS Statisticsを連携して、予測モデルの評価方法の1つである適合率/再現率曲線を作成する手順をまとめました。
環境
・SPSS Modeler 18.3
・SPSS Statistics 28
・Mac OS Big Sur 11.4
SPSS ModelerとSPSS Statisticsを連携するための手続き
SPSS Modelerを起動して以下の手続きを行います。
①ツールメニュー>オプリョン>ヘルパーアプリケーションを選択します。
②IBM SPSS Statisticsユーティリティ...をクリックします。
③参照ボタンをクリックします。
③/Applications/IBM SPSS Statistics/SPSS Statistics.app/Contents/binを選択します。
※SPSS Statistics.appの下層が表示されない場合は、SPSS Statistics.appを右クリックして、パッケージの内容を表示を選択すると表示されます。
④OKボタンをクリックします。
設定はこれで完了です。
<参考>
https://www.ibm.com/docs/ja/spss-modeler/18.3.0?topic=nodes-spss-statistics-helper-applications
SPSS ModelerのIBM@ SPSS@ StatisticsパレットにあるStatistics 変換、Statistics モデル、Statistics 出力ノードが使えるようになります。
予測モデルを作成
モデル作成の手順は、いつものSPSS Modelerの手順のため省略します。
今回は、RISKの予測モデルをロジスティック回帰ノードを使って作成しました。モデル作成ノードの分析タブにある傾向スコアの選択を忘れずに行います。忘れてしまった場合には、モデルナゲットの設定タブにある傾向スコアを選択すれば大丈夫です。
<モデル作成ノードの場合>
<モデルナゲットの場合>
作成した予測モデルの適合率/再現率曲線を作成
いよいよここからSPSS Statisticsとの連携です。SPSS Statisticsで利用できるフィールド名(変数名)のルールは、SPSS Modelerとは異なるため注意が必要です。SPSS Statisticsでは、フィールド名の頭文字は文字であること、スペースやハイフン、特殊文字の使用は不可となっています。また、文字数は半角で8文字、全角で4文字までの制限があります。フィルターノードを使うと簡単にSPSS Statisticsのルールに合うフィールド名に変更ができます。ここでもモデルナゲットのあとにフィルターノードをリンクして、フィールド名を変更します。
フィルターノードの編集画面のメニューから、IBM SPSS Statistics用に名前変更を選択します。
ハッシュもしくは、下線を選択して、OKボタンをクリックします。
ここでは、ハッシュを選択しました。
頭文字が$"だったフィールドには、”X"が付きました。1回の実行で1種類の置き換えのため、ハイフンを置き換えるためにもう1回同じ手続きを実行します。これで、"ー"が"#"に置き換わりました。
準備ができたので、Statistics 出力ノードをリンクして、編集画面を表示します。
ダイアログを選択...をクリックして、分析▶>分類>ROC分析を選択します。
SPSS StatisticsのROC分析ダイアログボックスが表示されます。
検定変数に先程ロジスティック回帰モデルで算出した傾向スコアフィールド(XSLRP#RISK_2)を指定します。状態変数には、対象フィールドのRISK_2を指定し、状態変数の値は、対象フィールド内のターゲットの値を入力します。
ROC分析 ダイアログボックス内の表示ボタンをクリックします。
すべて選択します。
続行ボタンをクリックします。さらに、OKボタンをクリックします。
Sitarists 出力ノードが以下の通り更新されています。グレーの部分は、ROC分析を実行するためのStatisticsのシンタックスコマンドです。
実行ボタンをクリックします。
SPSS Statisticsの出力ファイルと同じイメージのウィンドウが表示されます。
ROC曲線はModelerの評価ノードでも作成できますね。
適合率/再現率曲線が作成されました。y軸のラベルが精度となっていますが適合率のことです。
出力には、他にもROC曲線下の面積AUCとその信頼区間やカットオフ値、座標情報などが表示されています。
<参考>
Modelerの精度分析ノードの出力
まとめ
SPSS ModelerとSPSS Statisticsを連携して、適合率/再現率曲線を作成しました。