背景
AWS Machine Learning Specialtyの勉強をしている時に、再現率や適合率などが出てきて、どうしてもTPやFPなどで表された式では頭にすんなり入ってこなかったので、自分なりに言葉だけで纏めてみようと思いました。
内容
再現率(Recall)
再現率と真陽性率は同じ。
\frac{陽性と予測して、実際にも陽性の数}{実際に陽性の数}
⇒「偽陰性」を重視する時に用いる。
適合率(Precision)
\frac{陽性と予測して、実際にも陽性の数}{陽性と予測した数}
⇒「偽陽性」を重視する時に用いる。
F1スコア値(F-measure、F-score)
F1スコア値は、再現率と適合率の調和平均で、しっかりした予測だと1に近くなる。
2\times\frac{再現率と適合率の掛け算}{再現率と適合率の足し算}
⇒「偽陽性」と「偽陰性」を重視する時に用いる。
適合率-再現率曲線下面積(AUC-ROC)
適合率-再現率曲線下面積(AUC-ROC)は、適当な予測だと0.5に近く、しっかりした予測だと1に近くなる。
異なる予測モデル間の評価比較や、不均衡なデータセットに対するモデル性能の評価と言えば、まずはこれ。
特異性(Specificity)
再現率の逆。
\frac{陰性と予測して、実際にも陰性の数}{実際に陰性の数}
精度(Accuracy)
\frac{予測が当たった数}{実際の全データ数}
予測が当たった数は、「陽性と予測して、実際にも陽性の数」と「陰性と予測して、実際にも陰性の数」の合計。
⇒「真陽性」と「真陰性」を重視する時に用いる。
まとめ
TPやFPなどの式ではなかなか頭に入ってこなかったのに、実際に自分の言葉で纏めてみると、すんなりと頭に入ったのは不思議でした(笑)自分の言葉で書き起こしてみる事はやはり勉強では大事ですね。