こんにちは!
「AI」って最近よく聞くけど、実際どんな風に活用されてるんだろう? そして、AIの性能ってどうやって測るんだろう? そんな疑問をお持ちのあなたへ。
今回は、AIの性能を測るための重要な手法 「混同行列」 と、そこから導き出される 「精度」「適合率」「再現率」「F値」 という4つの指標について、わかりやすく解説していきます。 初心者の方でも理解できるように、具体的な例も交えて説明していきますね!
混同行列って何だろう?
混同行列は、AIの予測精度を評価するための表のことです。 特に、「Yes」か「No」 のように、2つの選択肢から答えを予測するAIでよく使われます。
例として、迷惑メールを判別するAIを想像してみましょう。 迷惑メールを「Yes」、そうでないメールを「No」とすると、AIの予測結果は以下の4パターンに分けられます。
- 実際は迷惑メールで、AIも迷惑メールと予測(正解)
- 実際は迷惑メールなのに、AIは迷惑メールではないと予測(間違い)
- 実際は迷惑メールではないのに、AIは迷惑メールと予測(間違い)
- 実際は迷惑メールではなく、AIも迷惑メールではないと予測(正解)
これらの結果をまとめたものが混同行列です。
AIが迷惑メールと予測 | AIが迷惑メールではないと予測 | |
---|---|---|
実際は迷惑メール | 正解 (TP) | 間違い (FN) |
実際は迷惑メールではない | 間違い (FP) | 正解 (TN) |
混同行列の見方
表の中のアルファベットは、それぞれ以下のような意味を持っています。
- TP (True Positive): 本当に迷惑メールで、AIも迷惑メールと正しく予測できた数
- FP (False Positive): 迷惑メールではないのに、AIが迷惑メールと間違えて予測した数
- FN (False Negative): 迷惑メールなのに、AIが迷惑メールではないと間違えて予測した数
- TN (True Negative): 迷惑メールではなく、AIも迷惑メールではないと正しく予測できた数
混同行列からわかること:4つの指標
混同行列から、AIの性能を様々な角度から評価することができます。 ここでは、特に重要な4つの指標を紹介します。
-
精度 (Accuracy): 全体の予測のうち、どれくらい正解していたかを表す指標です。
- 計算式: (TP + TN) / (TP + FP + FN + TN)
- 例:迷惑メールフィルターで、全体のメールのうち、正しく分類できたメールの割合
-
適合率 (Precision): AIが「Yes」と予測したもののうち、実際に「Yes」だったものの割合を表す指標です。
- 計算式: TP / (TP + FP)
- 例:迷惑メールフィルターで、迷惑メールと判断されたメールのうち、実際に迷惑メールだった割合
-
再現率 (Recall): 実際に「Yes」だったもののうち、AIが「Yes」と予測できたものの割合を表す指標です。
- 計算式: TP / (TP + FN)
- 例:迷惑メールフィルターで、実際に迷惑メールだったもののうち、AIが迷惑メールと判断できた割合
-
F値 (F-measure): 適合率と再現率のバランスを測る指標です。
- 計算式: 2 * (適合率 * 再現率) / (適合率 + 再現率)
- 例:迷惑メールフィルターで、迷惑メールの検出漏れと、誤判定のバランスを考慮した指標
どんな時にどんな指標が重要?
これらの指標は、状況によって重要度が変わってきます。
- 精度が重要なケース: 全体的な正答率を上げることが重要視される場合。例えば、顧客からの問い合わせに自動応答するAIなど。
- 適合率が重要なケース: 「Yes」と予測することによるリスクが高い場合。例えば、病気の診断AIで、健康な人を誤って病気と診断してしまうと、不要な検査や治療につながる可能性がある。
- 再現率が重要なケース: 「Yes」を見逃すことによるリスクが高い場合。例えば、工場の不良品検知AIで、不良品を見逃すと、重大な事故につながる可能性がある。
- F値が重要なケース: 適合率と再現率のバランスを取りたい場合。例えば、迷惑メールフィルターで、迷惑メールの検出漏れと、重要なメールを誤って迷惑メールと判断してしまうことの両方を避けたい。
まとめ
混同行列と4つの指標は、AIの性能を多角的に評価するために非常に役立ちます。 AI開発者だけでなく、AIを利用する人にとっても、これらの指標を理解しておくことは、AIをより効果的に活用するために重要です。
今回の記事が、混同行列と指標を理解する上で少しでもお役に立てれば幸いです。