LoginSignup
0
0

More than 1 year has passed since last update.

再現率?適合率? 混同行例を使った評価指標

Posted at

機械学習の勉強をしていて、2値分類タスクを行う際の評価指標で混乱したので
備忘録として自分でまとめてみました。

混合行列(confusion matrix)とは

 学習アルゴリズムの性能を明らかにする行列。
 以下の4パターンがあり、図にすると分かりやすい。

  • TP(True Positive):
    実際のクラス:Positive、予測したクラス:Positive
  • FP(False Positive):
    実際のクラス:Negative、予測したクラス:Positive
  • TN(True Negative):
    実際のクラス:Negative、予測したクラス:Negative
  • FN(False Negative):
    実際のクラス:Positive、予測したクラス:Negative

様々な評価指標

  • 正答率(accuracy)
    正確に予測したものを全てのサンプルで割ったもの。精度ともいう。
    $$
    accuracy = \frac{TP + TN}{TP + TN + FP + FN}
    $$

  • 適合率(precision)
    陽性であると予測されたもののうち、実際に陽性であったものの割合。
    陽性的中率(positive predictive value)ともいう。
    $$
    precision = \frac{TP}{TP + FP}
    $$

  • 再現率(recall)
    実際の陽性サンプルのうち、陽性と予測できたものの割合。
    感度(sensitivity)、ヒット率(hit rete)、真陽性率(true positive rate)ともいう。
    $$
    recall = \frac{TP}{TP + FN}
    $$

  • f-値(f-measure)
    適合率を上げるためには、真であることが最も確信できる1つのデータのみ陽性と予測し、その他を全て陰性とすればよい。
    その場合、適合率は100%となってしまう。

    また、再現率を上げるためには、全てのサンプルを陽性と予測すればよい。
    その場合、再現率は100%となる。

    このように、適合率と再現率はトレードオフの関係にある。
    これら2つをまとめたものがf-値(f-measure)であり、適合率と再現率のバランスをとった評価指標である。
    f-値は適合率と再現率の調和平均である。
    F1スコア(F1-score)ともいう。

$$
F = 2 \div (\frac{1}{precision} + \frac{1}{recall}) \\
= 2 \times \frac{precision \times recall}{precision + recall}
$$

参考書籍

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0