不正検知モデルの作成においてロジスティック回帰を用いる場合、作法が通常とは異なる場合があると感じたため、その点を以下に示す。
検定に関して
不正検知という文脈に限らず、結果を予測するためのモデルを作成する場合、個別の係数の有意性は重視されない事が多い。そもそも個別の係数の有意性を検定する理由としては、当該係数が被説明変数に影響を及ぼしているかどうかを確認する意味合いが強い。これは、現時点のデータを切り取って物事の構造を把握するためにロジスティック回帰を使用するという使用方法であれば有効である。なぜなら統計的に有意でない係数に対して評価をすることは無意味となってしまうからである。
一方結果予測を目的としたモデル作成の場合、個別の係数の有意性は重視されず、モデル適合度の方を重要視される。そもそも個別の係数を有意性に基づいて排除する事が、モデルの予測性能を向上させるとは限らない。なぜならば、係数が複数ある場合、係数同士の交互作用等も想定される等、単純に係数一つの有意性で図れないファクターが存在するからである。また、予測モデルの場合は、含まれる係数が統計的に有意でない事によって結果に影響を及ぼさない事はあっても、結果への影響を攪乱するかどうかは別問題であり、この事実がモデル適合度に論理的に影響しないと見做されているものと思われる。
変数選択に関して
ではどのような定量的基準に基づいてモデルを構築するのが最適なのであろうか。例えば先行研究であるFanning and Cogger(1998)、Lin et al.(2003)、Kotsiantis et al.(2006)などでは、ステップワイズ法に従って変数を選択している。[1]
また、平井裕久ほかの分析においては、Lasso回帰によりAICを最大化する形で変数を選択している。[1]
カットオフ値に関して
平井裕久ほかの分析においては、ホールドアウト法(全体データの7割をトレーニングデータ、3割をテストデータと最初に決めてしまう手法)ではなく10分割交差検証法を使用している。即ち、データを10個に分割し、その内一つをテストデータ、他データをトレーニングデータとする。そして10個に分割した全データそれぞれがテストデータになるように、つまり10パターンのトレーニングを行う。そして各パターンの分析で算出された統計量の検定値を10パターン全てで平均し、それを全体の結果とする。その上で、F値のカットオフ値を0から少し上げていって、Correct Classificationがどれだけ上がるか、Sensitivityがどれだけ上がるかを見る。この両者がどの値であるかを基準にするという事は難しく、バランスを見ながらという事にはなるが、平井らの論文においては、Correct Classificationの向上がこれ以上大きくは見込めない(上限値に漸近している状況)といった段階で、かつある程度のSensitivityが保てているという段階を採用しているようである。
F = 2 * (Precision * Recall) / (Precision + Recall)
Precision = TP / (TP + FP)\\
Recall = TP / (TP + FN)\\
特に上記において、変数選択にあたってLasso回帰が適切なのかどうか、k分割交差法が適切なのかどうかといった点は検証が必要な部分であろうかと思う。
[1] 事前不正確率の違いによるロジスティック回帰を用いた不正会計の検知モデルの検知精度 平井裕久ほか 高崎経済大学論集第64巻第4号2022 PP.107~128