1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

【機械学習】分類器の評価(1)

Last updated at Posted at 2020-03-25

#はじめに
分類器の評価に関する内容を整理します。

#分類器の概念

二項分類において、下記の図のように陽性Positiveと陰性Negativeのデータがあるとします。

image.png

もし、この分類器の正確度が100%であれば、下記の図のように陽性と陰性データを完璧に分類が可能です。分類器が、陽性として予測した領域をPositive Prediction, 陰性として予測した領域をNegative Predictionと言います。
image.png

しかしながら、実世界では正確度100%の分類器は珍しく、下記の図のように分類するケースが多いです。

image.png

ここで、用語を整理しましょう。

  1. データが陽性で、分類器が陽性として正しく予測した場合 → True Positive (TP)
  2. データが陰性で、分類器が陰性として正しく予測した場合 → True Negative (TN)
  3. データが陽性で、分類器が陰性として間違って予測した場合 → False Negative (FN)
  4. データが陰性で、分類器が陽性として間違って予測した場合 → False Positive (FP)

これらの用語を図として表現すると、下記の図になります。

image.png

image.png

普段、これらの用語をテーブルとして表すと、下記のようになります。あるいは、混合行列(Confusion Matrix)とも言います。

image.png

そして、実際(Observed)に陽性Positive, 陰性Negativeは、下記の式が成立します。

P = TP + FN\\
N = FP + TN

この表を用いて、次の指標を計算して、分類器の評価に使います。

##Accuracy(正確度)
全データの中(赤い枠)、正しく分類されたデータ(緑色)の割合を示します。

Accuracy = \frac{TP+TN}{TP+FN+FP+TN} = \frac{TP+TN}{P+N} 

image.png

Sensitivity(Recall, 敏感度)

陽性データの中(赤い枠)、正しく陽性として分類されたデータ(緑色)の割合を示します。

image.png

Sensitivity = \frac{TP}{TP+FN} = \frac{TP}{P} 

Precision(精密度)

陽性として予測したデータの中(赤い枠)、実際に陽性のデータ(緑色)の割合を示します。

image.png

Precision = \frac{TP}{TP+FP} 

Specificity(特異度 True Negative Rate)

陰性データの中(赤い枠)、正しく陰性として分類されたデータ(緑色)の割合を示します。
image.png

Specificity = \frac{TN}{FP+TN} = \frac{TN}{N}  

##False Positive Rate (1-Specificity)
陰性データの中(赤い枠)、間違って陽性として分類されたデータ(緑色)の割合を示します。
image.png

False Positive Rate = \frac{FP}{FP+TN} = \frac{FP}{N} = 1- Specificity  

#まだピンとこない方のために

分類器の評価に関するいくつの用語を整理しました。しかしながら、まだピンとこない方もいると思います。
特にSensitivityとSpecificityがなかなな覚えられない意見が多いと聞いています。

例えば、貴方が海軍のためにレーダーを開発しているエンジニアだとしましょう。
貴方の任務は、友軍機(Positive)と敵機(Negative)を正しく捕捉するレーダーを設計することです。

image.png

image.png

用語 定義 海軍のレーダー
Accuracy 全データの中、正しく分類されたデータの割合   レーダーが友軍機、敵機問わず正しく捕捉された割合
Sensitivity, Recall 陽性データの中、正しく陽性として分類されたデータの割合  友軍機の中、友軍機として正しく判断された割合
Precision 陽性として予測したデータの中、実際に陽性のデータの割合  友軍機と判断した中、実際に友軍機であった割合
Specificity 陰性データの中、正しく陰性として分類されたデータの割合 敵機の中で、正しく敵機と判断した割合
False positive rate 陰性データの中、間違って陽性として分類されたデータの割合 敵機を間違って友軍機と判断した割合 

海軍のレーダーの目的を考えますと、

  1. 友軍機をいかに正しく検知するか → Sensitivityの指標で判断。
  2. 敵機をいかに正しく検知するか → Specificityの指標で判断。

とう感じでいかがですか?

#参考資料

https://classeval.wordpress.com/introduction/basic-evaluation-measures/
https://bit.ly/3dCX3R8

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?