適合率と再現率とF1スコア（メモ）

Last updated at 2024-11-20Posted at 2024-11-18

適合率・再現率

機械学習などで，モデルの評価に使われる指標。

誤って「真」と判断することが重大な影響を及ぼすケースを減らしたい。
モデルが「真」と判断して，実は「偽」だったケースを減らしたい。
モデルが「偽」として，実は「真」だったという見逃しは多くてもよい。

怪しいものをまずは一旦あぶり出したい場合。
見逃しが重大な影響を及ぼすケースを減らしたい。
モデルが「偽」と判断して，実は「真」だったケースを減らしたい。
モデルが「真」と判断して，次は「偽」だった過剰反応は多くてもよい。

適合率が低いと，通常のメール（偽）がスパム（真）と判定されることが増える。

適合率が低いと，通常のサイト（偽）が危険なサイト（真）と判定されることが増える。

再現率が低いと，癌（真）なのに癌でない（偽）と判定してしまうこと（見逃し）が増える。

再現率が低いと，インシデント（真）なのにインシデントでない（偽）と判定してしまうこと（見逃し）が増える。

真(true)が，必ずしも人の感覚に正しい事象のことを言わないのでややこしいです。どちらかというと，人間にとってよくない事象を「真」とすることが多いような（癌とか危険なサイトとかインシデントとか）