二値分類問題に取り組んでいて気付いたことを、LLMの力を借りて論文調にしてみました。
1. 問題設定と背景
F1 スコアは、クラス不均衡な二値分類問題において広く用いられている評価指標である。一方で実務や競技的機械学習の現場では、真の陽性率(prevalence)よりも、わずかに高い陽性率で予測した方が F1 が高くなりやすい、という経験則がしばしば観察される。しかし、この挙動が どのような理論的理由によって生じるのか、また 分類器の性能とどのように関係するのか は、必ずしも明確に整理されていない。
本研究では、この現象を、AUC(順位付け性能)を固定した条件下で理論的に整理する。特に、ROC 曲線に基づく可視化を通して、予測 pos_rate と F1 の関係構造が AUC によってどのように変化するかを考察する。
2. 定義と記法
全サンプル数を N、真の陽性数を P、真の陽性率を
$$
p = \frac{P}{N}
$$
とする。
分類器の予測結果に対し、以下を定義する。
- 予測陽性率(提出 pos_rate)
$$
r = \Pr(\hat{y}=1)
$$
- F1 スコア
$$
\mathrm{F1} = \frac{2TP}{2TP + FP + FN}
$$
- 真陽性率(TPR)、偽陽性率(FPR)
ここでは ROC 曲線を、偽陽性率(FPR)を変数とする関数として扱う。
具体的には、分類のしきい値を高い方から徐々に下げていくと、予測される陽性サンプルが増加し、それに伴って、偽陽性率(FPR)、真陽性率(TPR)が同時に増加していく。
このとき、FPR を横軸の変数 $(x\in[0,1])$ とし、それに対応する TPR を関数 $(\mathrm{TPR}(x))$ として表すことで、ROC 曲線を
$$
\mathrm{TPR} = \mathrm{TPR}(x), \quad 0 \le x \le 1
$$
という形で記述できる。
$(x=0)$ はすべてを陰性と判定する極端な場合、
$(x=1)$ はすべてを陽性と判定する極端な場合に対応する。
- AUC
分類器の順位付け能力を AUC によって表す。AUC は、ランダムに選んだ陽性サンプルと陰性サンプルに対して、陽性サンプルの予測スコアが陰性サンプルより高くなる確率として解釈できる(スコアが同点の場合は 1/2 と数える流儀が一般的である)。
本論文では、ROC を関数として扱うことで、AUC は、
$$
\mathrm{AUC} = \int_0^1 \mathrm{TPR}(x)\ dx
$$
と表される。これにより、F1 スコアを ROC 上の点の関数として解析することが可能になる。
3. AUC 固定下での ROC モデル
AUC を固定したもとで、実現可能な ROC 曲線の族を表すため、本研究では以下の 1 パラメータ ROC モデルを用いる。
$$
\mathrm{TPR}(x) = 1 - (1-x)^k, \quad x=\mathrm{FPR}
$$
このとき AUC は
$$
\mathrm{AUC} = \int_0^1 \mathrm{TPR}(x)\ dx = \frac{k}{k+1}
$$
であり、AUC を与えると
$$
k = \frac{\mathrm{AUC}}{1-\mathrm{AUC}}
$$
が一意に定まる。
このモデルは、AUC が高いほど「少数の FPR 増加で TPR が急増する」ROC 曲線を表現する。
補足: 本モデルが、ROCの自然な具体例となっていることの説明
ROC 曲線は本質的に、予測スコアの分布に基づく累積確率同士の関係として表される。
しきい値を $(t)$、陰性・陽性サンプルのスコア分布の累積分布関数(CDF)を
それぞれ $(F_-(t), F_+(t))$ とすると、
$$
\mathrm{FPR}(t)=1-F_-(t), \qquad
\mathrm{TPR}(t)=1-F_+(t)
$$
であり、ROC 曲線は
$$
\mathrm{TPR}(x)
=1-F_+\left(F_-^{-1}(1-x)\right)
$$
という CDF の合成として表される。
多くの統計的予測モデルでは、スコアが多数の寄与の和として構成されるため、その分布はなめらかで単峰になりやすく、結果として ROC 曲線も単調で滑らかな CDF 型の形状を取ることが多い。
ここでいう CDF 型とは、FPR を増やすにつれて TPR が滑らかに増加していく、しきい値操作に対して自然な応答を示す形状を指す。
本研究で用いた ROC 曲線族は、ここで得られた ROC の一般形に対して、陰性・陽性スコア分布が同型でスケール(単調変換)のみが異なる(例:指数分布)と仮定した場合に得られる代表的な具体例であり、1 パラメータで正規化できている。
4. 予測陽性率と F1 の関係
ROC 上の点 ($\mathrm{FPR}$, $\mathrm{TPR}$) に対応する予測陽性率 $r$ は
$$
r = p \cdot \mathrm{TPR} + (1-p)\cdot \mathrm{FPR}
$$
で与えられる。また、このときの F1 スコアは
$$
\mathrm{F1}
= \frac{2p\cdot\mathrm{TPR}}
{2p\cdot\mathrm{TPR} + (1-p)\mathrm{FPR} + p(1-\mathrm{TPR})}
$$
となる。
したがって、本研究で用いた ROC モデルの下では、AUC を固定すると、ROC 曲線に沿って $\mathrm{FPR}$ を動かすことで、実現可能な ($r$, $\mathrm{F1}$) の関係が一意に定まる。
5. 実験的可視化
図1は、真の陽性率を p=0.245 に固定し、AUC を
$$
0.55,\ 0.60,\ 0.70,\ 0.80,\ 0.90,\ 0.95,\ 0.97,\ 0.99
$$
とした場合の、予測陽性率 r と F1 の関係を示したものである。
各曲線上の点は ROC 上で実現可能な予測のみを表し、●印はそれぞれの AUC における F1 最大点 を示している。
6. 観察結果
図から、本研究のROCモデルの下では、以下の性質が明確に読み取れる。
(1) AUC 固定下では F1 は単峰性を持つ
いずれの AUC においても、F1 は予測陽性率 r に対して単峰性を示し、過小・過大な予測の双方で低下する。
(2) AUC が低いほど、F1 最大点は高い pos_rate に移動する
AUC が 0.55 や 0.60 といった低い値の場合、F1 を最大化する予測陽性率 $r^*$ は、真の陽性率 p を大きく上回る。
これは、FN を減らすためには多数の FP を許容せざるを得ないためである。
(3) AUC が 1 に近づくにつれ、F1 最大点は真の陽性率に近づく
AUC が 0.97 や 0.99 と非常に高い場合、F1 のピークは p の近傍に位置する。
順位付けがほぼ完全であるため、わずかな FPR の増加で FN をほぼ除去でき、過剰な陽性予測を行う必要がなくなる。
7. 理論的解釈
F1 スコアは構造的に FN に対して強いペナルティ を課す指標である。一方、実際の分類器では FN=0 を達成することは ROC 制約により困難である。
その結果、
- AUC が低い(順位が乱雑)場合
→ FN を減らすには大量の FP を伴う
→ F1 最大点は高い pos_rate 側に移動 - AUC が高い(順位が整理されている)場合
→ 少数の FP で FN を削減可能
→ F1 最大点は真の陽性率に近づく
という連続的な挙動が生じる。
8. 結論
本研究は、「F1 を最大化する予測陽性率は、分類器の AUC に依存して体系的に変化する」ことを、ROC に基づく可視化と理論モデルによって示した。
特に、実務で観測される「少し多めに陽性を出すと F1 が高くなる」という経験則は、F1 の非対称性と AUC による実現可能性制約の帰結であることが明らかになった。
注意:本研究が示しているものについて
ここで示した結論は、本研究で用いた ROC モデルの下で、AUC を固定した条件下において理想化された代表的な ROC 族を仮定した場合に到達しうるF1 スコアの上限的な振る舞いを可視化したものです。
この F1 を達成できる分類器が実際に存在することや、この F1 を超える分類器が存在しないことを、保証するものではありません。
本稿の目的は、AUC 制約下におけるF1 と予測 pos_rate の関係構造や傾向を理解することにあります。
