適合率・再現率
機械学習などで,モデルの評価に使われる指標。
いきなりまとめ
- 適合率(Presision)を高めにするモチベーション
誤って「真」と判断することが重大な影響を及ぼすケースを減らしたい。
モデルが「真」と判断して,実は「偽」だったケースを減らしたい。
モデルが「偽」として,実は「真」だったという見逃しは多くてもよい。
- 再現率(Recall)を高めにするモチベーション
怪しいものをまずは一旦あぶり出したい場合。
見逃しが重大な影響を及ぼすケースを減らしたい。
モデルが「偽」と判断して,実は「真」だったケースを減らしたい。
モデルが「真」と判断して,次は「偽」だった過剰反応は多くてもよい。
- F1スコアを高くするモチベーション
再現率と適合率,どちらも高くして優等生なモデルを作りたい。
適用例
- スパムフィルタ(スパムであれば「真」と判定するモデル) →適合率を高くする
適合率が低いと,通常のメール(偽)がスパム(真)と判定されることが増える。
- Webフィルタ(危険なサイトであれば「真」と判定するモデル) →適合率を高くする
適合率が低いと,通常のサイト(偽)が危険なサイト(真)と判定されることが増える。
- 癌の検査(癌であれば「真」と判定するモデル) → 再現率を高くする
再現率が低いと,癌(真)なのに癌でない(偽)と判定してしまうこと(見逃し)が増える。
- セキュリティインシデントの検知(インシデントであれば「真」と判定するモデル) → 再現率を高くする
再現率が低いと,インシデント(真)なのにインシデントでない(偽)と判定してしまうこと(見逃し)が増える。
ひとりごと
真(true)が,必ずしも人の感覚に正しい事象のことを言わないのでややこしいです。どちらかというと,人間にとってよくない事象を「真」とすることが多いような(癌とか危険なサイトとかインシデントとか)
参考