search
LoginSignup
0

More than 1 year has passed since last update.

posted at

再現率?適合率? 混同行例を使った評価指標

機械学習の勉強をしていて、2値分類タスクを行う際の評価指標で混乱したので
備忘録として自分でまとめてみました。

混合行列(confusion matrix)とは

 学習アルゴリズムの性能を明らかにする行列。
 以下の4パターンがあり、図にすると分かりやすい。

  • TP(True Positive):
    実際のクラス:Positive、予測したクラス:Positive
  • FP(False Positive):
    実際のクラス:Negative、予測したクラス:Positive
  • TN(True Negative):
    実際のクラス:Negative、予測したクラス:Negative
  • FN(False Negative):
    実際のクラス:Positive、予測したクラス:Negative

様々な評価指標

  • 正答率(accuracy)
    正確に予測したものを全てのサンプルで割ったもの。精度ともいう。
    $$
    accuracy = \frac{TP + TN}{TP + TN + FP + FN}
    $$

  • 適合率(precision)
    陽性であると予測されたもののうち、実際に陽性であったものの割合。
    陽性的中率(positive predictive value)ともいう。
    $$
    precision = \frac{TP}{TP + FP}
    $$

  • 再現率(recall)
    実際の陽性サンプルのうち、陽性と予測できたものの割合。
    感度(sensitivity)、ヒット率(hit rete)、真陽性率(true positive rate)ともいう。
    $$
    recall = \frac{TP}{TP + FN}
    $$

  • f-値(f-measure)
    適合率を上げるためには、真であることが最も確信できる1つのデータのみ陽性と予測し、その他を全て陰性とすればよい。
    その場合、適合率は100%となってしまう。

    また、再現率を上げるためには、全てのサンプルを陽性と予測すればよい。
    その場合、再現率は100%となる。

    このように、適合率と再現率はトレードオフの関係にある。
    これら2つをまとめたものがf-値(f-measure)であり、適合率と再現率のバランスをとった評価指標である。
    f-値は適合率と再現率の調和平均である。
    F1スコア(F1-score)ともいう。

$$
F = 2 \div (\frac{1}{precision} + \frac{1}{recall}) \\
= 2 \times \frac{precision \times recall}{precision + recall}
$$

参考書籍

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
What you can do with signing up
0