こんにちは!
今回はAIや統計学の世界で非常に重要な「尤度(ゆうど)・尤度関数」について、出来るだけ分かりやすく解説していきます。
「確率とどう違うの?」と疑問に思う人が多いので、まずそこから整理していきましょう!
確率と尤度の違い
確率(Probability)
「ルール(モデル)が決まっているときに、データが出る可能性」
例:サイコロを振って「3」が出る確率は 1/6
尤度(Likelihood)
「データが出たときに、そのルール(モデル)がどれくらい信頼できるか」
例:サイコロを10回振ったら「3」が3回出たとする。
- そのサイコロが「公平(全部1/6)」な場合、どれくらいありそう?
- もし「3が出やすいサイコロ」だとしたら、その仮説の方がもっと自然?
この「データが観測されたときに、仮説がどれくらいもっともらしいか」を測るのが尤度です。
直感でいうと…
- 確率は「ルールが決まっていて、そのルールのもとで何が起きやすいか」
- 尤度は「実際に起きたことを見て、そのルールはどれくらい信頼できるか」
向きが逆なんです!
具体例:コイン投げ
コインを10回投げたら、7回が表になりました。
- 仮説A:「表と裏は半々(50%)」
- 仮説B:「表が出やすい(70%)」
このとき、観測データ「表が7回」という結果は、どちらの仮説の方がもっともらしいでしょう?
尤度を計算すると…
- 仮説Aの尤度は小さい(偶然7回表は珍しい)
- 仮説Bの尤度は大きい(“まあありそう”な結果)
だから「このデータを見る限り、仮説Bの方が自然だね」と判断できます。
また、天気予報で
「明日雨が降る確率は30%」と発表された日、実際に雨が降った。
- この1日のデータだけを見ると「本当に30%?」と感じるかも。
- でも1ヶ月トータルで見て、30%予報の日が10日あって、そのうち3日雨が降ったら「おおむね正しかった」と納得できる。
データを積み重ねて「予報モデルの尤度」を評価しているわけです。
数式での表現
データ D
、パラメータ(仮説) θ
のとき、
\mathcal{L}(\theta \mid D) = P(D \mid \theta)
P(D | θ) は「θ というルールのもとでデータ D が観測される確率」
これを「尤度関数」と呼びます
違いは、確率はデータを変数にするのに対し、尤度はパラメータを変数にする点です。
AIや機械学習での使い道
-
最尤推定(MLE)
データから「一番尤度が大きいパラメータ(=一番もっともらしい仮説)」を選ぶ方法。
例:コインの表が出る確率を「7/10 ≈ 0.7」と推定。 -
統計モデルの学習
ニューラルネットの学習でも、確率モデルを立てて尤度を最大化する(=交差エントロピーを最小化するのと同じ意味)。 -
ベイズ統計
尤度を「データが与えられたときの仮説の重み」として使う。
まとめ
用語 | 意味 |
---|---|
確率 | モデルが決まっていて、データが起きる可能性 |
尤度 | データが観測されたときに、そのモデルがどれくらいもっともらしいか |
使い道 | 最尤推定、機械学習の学習、ベイズ推論 |
おわりに
尤度は「データを見て仮説の信頼度を評価するためのものさし」です。
コイン投げやサイコロのような身近な例で考えるとイメージしやすいですよね。
AIや機械学習の中でも、実は「尤度を最大にするパラメータを探す」ことが学習の本質になっています。