Precison(適合率)とRecall(再現率)を求める(混同行列)
*Ver18.4から自動分類ノードでPrecisionとRecallが計算されるようになりました。この記事では実装後のモニタリングのためにノードを利用した計算方法を解説します。
1.想定される利用目的
・予測モデルの性能評価
・実装後のモデルメンテナンスのための性能指標の算出
2.サンプルストリームのダウンロード
3.サンプルストリームの説明
a.入力するデータは以下の通りです。故障有無とその予測の2列のデータです。

b.[精度分析]ノードを編集します。[一致行列]にチェックして[フィールドによる評価対象分析]にふたつのフィールドを選択します。

[実行]します。
故障と予測して実際に故障していたのが右赤枠の8レコード(TP)、故障と予測して実際に故障していなかったのが4レコード(FP)。その合計12レコードに占めるTPの割合が適合率=0.667です。故障を警告して検査した中でどの程度故障を言い当てられるかを示しています。
一方、実際に故障した右青枠10レコード(FN+TP)のうち事前に察知できた8レコード(TP)の割合が再現率=0.667です。適合率が良かったとしても見逃した故障(FN)が多いと業務的には問題視されるためふたつの指標のバランスが重要になります。
以下のブログでもこの表示方法が紹介されています。
クロス集計ノードで適合率と再現率を確認する。
以下の記事でもこの表示方法が紹介しています。
実装後のモデル監視のために適合率と再現率をテーブル表示させる。
d.[フィールド作成]ノードを編集します。[派生]モードを[名義型]にして1でも0でもないとデフォルト値がNullになるように定義します。*このNullが後続の集計で適切に処理されます。

e.[フィールド作成]ノードを編集します。[派生]モードを[名義型]にして1でも0でもないとNullになるように定義します。

[プレビュー]します。適合率にはTNとFNが、再現率にはTNとFPが考慮されず、後続の平均の計算で割り算の分母が適切になるようにNullを意図的に利用しています。

*Accuracy(精度)の求め方は逆引き8-1を参照してください。
組み込み集計関数を利用して適合率と再現率をテーブル表示させる。
h.[再構成]ノードを編集します。後続で利用する組み込み集計関数COUNTで欠損ではない値をカウントさせるため[値フィールド]はNullがないものでしたらOKです。

注意事項
適合率と再現率の良し悪しは実際の業務でどの程度エラーが許容されるか、どの程度予測によってメリットを得られるかによって確定します。
4.参考情報
モデルの性能指標について解説した記事
SPSS Modeler ノードリファレンス目次
SPSS Modeler 逆引きストリーム集(データ加工)













