導入
機械学習の分野で、モデルの性能を正確に評価することは非常に重要です。このブログでは、分類と回帰、それぞれのタスクでよく用いられる主要な評価指標について解説します。これらの指標は、予測モデルの精度を理解し、改善するために不可欠です。
分類における指標
混同行列(Confusion Matrix)
混同行列は、分類タスクの性能を評価するための基礎となります。
この行列は、モデルによる予測と実際のラベルを比較して、真陽性(TP)、偽陽性(FP)、真陰性(TN)、偽陰性(FN)の4つの異なるカテゴリに分類します。
正解率(Accuracy)
正解率は、モデルが全てのサンプルをどの程度正確に分類したかを示します。これは最も直感的な性能指標の一つで、全予測のうち正しい予測の割合を計算します。
\text{Accuracy} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{FP} + \text{TN} + \text{FN}}
しかし、不均衡なデータセットでは、多数クラスの予測に偏ってしまう可能性があります。このため、正解率だけでモデルの性能を判断するのは適切ではない場合があります。
適合率(Precision)
適合率は、陽性と予測されたケースの中で実際に陽性である割合を示します。つまり、モデルが陽性と判断したデータの中で、どれだけ正確であったかを測ります。
\text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}}
適合率は、偽陽性(誤って陽性と判断されるケース)を低減することが重要な場合に特に重視されます。たとえば、スパムメールのフィルタリングなどがその例です。
再現率(Recall)
再現率は、実際に陽性であるケースの中で、モデルが陽性と正しく予測した割合です。
\text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}}
この指標は、実際の陽性ケースを見逃さないことが重要な場合に重要です。例えば、病気の診断で陽性ケースを見逃すことは大きな問題になります。
しかし、すべて陽性と予測すれば、1となってしまうため単独では用いず、適合率と併用して評価します。
F値(F-Score)
F値(特にF1スコア)は、適合率と再現率の調和平均を取ったものです。この指標は、適合率と再現率のバランスを測定します。
F\text{-Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
適合率と再現率はしばしばトレードオフの関係にあり、一方を上げるともう一方が下がる傾向があります。F値はこの二つの指標を均等に考慮し、全体的なモデルの性能を評価します。
この値が大きいほど、RecallとPrecisionの両方が良いことを示します。
回帰における指標
平均絶対誤差(MAE: Mean Absolute Error)
平均絶対誤差(MAE)は、予測値と実際の値との差の絶対値の平均です。この指標は、予測エラーの平均的な大きさを示します。
\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|
平均二乗誤差(MSE: Mean Squared Error)
平均二乗誤差(MSE)は、予測値と実際の値の差を二乗して平均したものです。
\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
MSEの特徴は、大きな誤差に対して非常に敏感である点です。誤差を二乗することで、大きな誤差はより強調されます。これは、モデルが大きな予測誤差を生じさせることを特に避けたい場合に有用です。しかし、その結果として、MSEは誤差の実際の大きさよりも大きく見積もることがあります。
平均二乗誤差の平方根(RMSE: Root Mean Squared Error)
平均二乗誤差の平方根(RMSE)は、MSEの平方根であり、誤差の尺度を元の変数の尺度に戻します。
\text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}
RMSEはMSEと同様に大きな誤差に敏感ですが、誤差の尺度を元のデータの尺度に戻すため(目的変数と同じ単位になる)、解釈が容易になります。例えば、予測対象が金額である場合、RMSEは「通貨単位」の誤差として解釈できます。
結論
このブログでは、分類タスクの指標(正解率、適合率、再現率、F値)と回帰タスクの指標(平均絶対誤差、平均二乗誤差、平均二乗誤差の平方根)について学びました。これらの指標は、モデルの予測性能を多面的に評価するために重要です。
特に、不均衡なデータセットや大きな予測誤差が問題となる状況では、特定の指標の重要性が増します。例えば、不均衡なデータセットでは、正解率だけではなく、適合率や再現率を考慮することが重要です。また、大きな誤差を避けたい回帰タスクでは、平均二乗誤差やその平方根が有用です。