1. はじめに
AIの予測モデルを開発する際、その精度を評価することは非常に重要です。精度が低いモデルは誤った予測を出し、金融、医療、サプライチェーン管理などの実用的なアプリケーションに大きな損害をもたらす可能性があります。モデルのパフォーマンスを測定するためには、さまざまな指標があります。しかし、適切な指標の選択は、問題の種類やビジネスの具体的な目標によって異なります。
本記事では、AI予測において一般的に使用される評価指標を紹介し、それぞれの適用ケースや具体的な例とともに解説します。また、各指標に対する個人的な評価基準(良い、許容範囲、受け入れ不可)を示します。
2. AI予測モデルの評価指標
2.1. 分類問題(Classification)
(1) Accuracy(全体の正確性)
-
式:
$$
Accuracy = \frac{正しく予測した数}{全予測数}
$$ -
使用すべき場面:
- データが均衡している場合(クラス間のサンプル数がほぼ同じ)。
- 例: 「スパム」と「スパムでない」メールの分類。
-
個人的見解:
- 良い値: Accuracy ≥ 90%
- 許容範囲: 70% ≤ Accuracy < 90%
- 受け入れ不可: Accuracy < 70%
(2) Precision(陽性予測の正確性)
-
式:
$$
Precision = \frac{TP}{TP + FP}
$$
(TP: 真陽性, FP: 偽陽性) -
使用すべき場面:
- 偽陽性(タイプIエラー)のコストが高い場合。
- 例: がん検出。
-
個人的見解:
- 良い値: Precision ≥ 0.85
- 許容範囲: 0.70 ≤ Precision < 0.85
- 受け入れ不可: Precision < 0.70
(3) Recall(モデルのカバー率)
-
式:
$$
Recall = \frac{TP}{TP + FN}
$$
(FN: 偽陰性) -
使用すべき場面:
- 偽陰性(タイプIIエラー)のコストが高い場合。
- 例: クレジットカード不正検出。
-
個人的見解:
- 良い値: Recall ≥ 0.85
- 許容範囲: 0.70 ≤ Recall < 0.85
- 受け入れ不可: Recall < 0.70
(4) F1-Score(PrecisionとRecallのバランス)
-
式:
$$
F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}
$$ -
使用すべき場面:
- PrecisionとRecallのバランスが必要な場合。
-
個人的見解:
- 良い値: F1-Score ≥ 0.85
- 許容範囲: 0.70 ≤ F1-Score < 0.85
- 受け入れ不可: F1-Score < 0.70
(5) AUC-ROC
-
目的:
- クラス間の識別能力を評価。
-
使用すべき場面:
- クラスを明確に区別する必要がある場合。
-
個人的見解:
- 良い値: AUC-ROC ≥ 0.90
- 許容範囲: 0.80 ≤ AUC-ROC < 0.90
- 受け入れ不可: AUC-ROC < 0.80
2.2. 回帰問題における評価指標
(1) 平均絶対誤差(MAE: Mean Absolute Error)
-
式:
$$
MAE = \frac{1}{n} \sum |y_{\text{予測値}} - y_{\text{実測値}}|
$$ -
使用する場面:
- 誤差の平均を元の単位で測定したい場合。
-
例:
- 住宅価格の予測で MAE = 5000 USD の場合、予測値は実測値と平均で 5000 USD の差があることを意味する。
-
個人的な見解:
- 良い値: MAE がデータの平均値の 5~10% 未満
- 許容範囲: MAE がデータの平均値の 10~20%
- 許容できない: MAE がデータの平均値の 20%以上
(2) 平均二乗誤差(MSE: Mean Squared Error)および平方根平均二乗誤差(RMSE: Root Mean Squared Error)
-
MSE の式:
$$
MSE = \frac{1}{n} \sum (y_{\text{予測値}} - y_{\text{実測値}})^2
$$ -
RMSE の式:
$$
RMSE = \sqrt{MSE}
$$ -
使用する場面:
- MSE は大きな誤差を強くペナルティするため、外れ値に敏感。
- RMSE は誤差を元のデータの単位で表現できるため、解釈しやすい。
-
例:
- 売上予測などで、大きな誤差を強調したい場合に RMSE を使用。
-
個人的な見解:
- 良い値: RMSE が MAE と大きく乖離しない(極端な外れ値がない)
- 許容範囲: MSE, RMSE が中程度で、誤差の分布を考慮する必要がある
- 許容できない: MSE, RMSE が非常に大きく、頻繁に大きな誤差が発生している
(3) 決定係数(R²: R-squared)
-
式:
$$
R^2 = 1 - \frac{\sum (y_{\text{実測値}} - y_{\text{予測値}})^2}{\sum (y_{\text{実測値}} - \bar{y})^2}
$$ -
使用する場面:
- モデルがデータの変動をどの程度説明できるか評価したい場合。
-
例:
- R² = 0.85 の場合、データの変動の 85% がモデルによって説明されている。
-
個人的な見解:
- 良い値: R² ≥ 0.90
- 許容範囲: R² が 0.70~0.90
- 許容できない: R² < 0.70
(4) 平均絶対スケール誤差(MASE: Mean Absolute Scaled Error)
-
式:
$$
MASE = \frac{MAE}{\text{基準予測モデルの MAE(例:移動平均予測)}}
$$ -
使用する場面:
- データのスケールに依存しない誤差評価を行いたい場合。
- 異なるモデル間での比較を容易にするため。
-
例:
- 時系列予測で MASE < 1 の場合、ベースラインモデル(例: 単純な平均予測)より良い予測ができていることを示す。
-
個人的な見解:
- 良い値: MASE < 0.5(予測精度が高く、誤差が少ない)
- 許容範囲: MASE が 0.5~0.8(使用可能だが、さらなる改善が必要)
- 許容できない: MASE > 0.8(予測の精度が低く、実用には向かない)
3. 各問題に適した指標の選択
問題の種類 | 適切な指標 | 適用ケース |
---|---|---|
バランスの取れた分類 | Accuracy | 手書き文字認識 |
不均衡な分類 | Precision / Recall | 不正検出、疾病診断 |
PrecisionとRecallのバランス | F1-Score | 製造業の欠陥検出 |
クラスの識別能力評価 | AUC-ROC | 医療画像による病気検出 |
連続値の予測 | MAE, RMSE, MSE | 住宅価格予測、売上予測 |
予測のパフォーマンス評価 | R², MASE | 市場変動予測、サプライチェーン予測 |
4. まとめ
適切な評価指標の選択と分析は、モデルの現状を理解するだけでなく、将来的な改善の基盤にもなります。各問題には固有の特性があるため、目的と誤差の影響を考慮することが重要です。
AI予測モデルを開発する際には、複数の指標を試し、最適なアプローチを見つけることが成功の鍵となります。
上記の個人的な見解はあくまで参考としてのものであり、企業の具体的な要件や実際の課題に応じて調整する必要があります。
予測モデルの評価指標に関するご経験や異なる視点をお持ちの方は、ぜひ共有してください。一緒に学び、改善していきましょう!