🔰 最尤法とは
✅ 最尤(さいゆう)法とは
-
観測したデータをもっともらしく説明する確率分布のパラメータを見つけるための方法
-
大数の法則により、十分なデータがあれば真の値に近づくことが特徴(漸近一致性)。
🧠 イメージで理解
たとえば:
-
コインを10回投げた結果 → 表が7回出た
-
しかし、このコインはどのくらいの確率で表が出のかは分からない
というように、モデルは想定できるけど、その中のパラメータ(例:表が出る確率 $\theta$)は分からない場合、最尤法を用いて、観測データをもとに一番尤もらしいパラメータ $\theta$ を探す。
🔰 尤度・尤度関数・最尤推定量とは
✅ 尤度(ゆうど)とは
-
パラメータの尤もらしさを評価する指標。
-
数学的には、確率分布の形をあらかじめ仮定し(例:ベルヌーイ分布、正規分布など)、その中のパラメータを変えたとき、どのパラメータが尤もらしいかを測るための指標である。
✅ 尤度(ゆうど)関数とは
-
パラメータ $\theta$ の尤もらしさ(尤度)を関数にしたもの。
-
尤度関数 $L(\theta)$ の基本形の数式は観測データ $x_1, x_2, ..., x_n$ に対して:
\begin{align} L(\theta) &= P(x_1, x_2, ..., x_n \mid \theta) \\ &= \prod_{i=1}^n P(x_i \mid \theta) \end{align}- ここで $P(x_i \mid \theta)$ は、パラメータ $\theta$ のもとでの各データ $x_i$ の確率 を表す。
-
この関数 $L(\theta)$ を 最大にする $\theta$ を探すのが最尤法。
✅ 対数尤度関数(log likelihood)
- 尤度関数 $L(\theta)$ に対して、対数をとって足し算にすることで計算を簡単にする。
\begin{align}
\log L(\theta) &= \log \left( \prod_{i=1}^n P(x_i \mid \theta) \right) \\
&= \log \left( P(x_1 \mid \theta) \cdot P(x_2 \mid \theta) \cdots P(x_n \mid \theta) \right) \\
&= \log P(x_1 \mid \theta) + \log P(x_2 \mid \theta) + \cdots + \log P(x_n \mid \theta) \\
&= \sum_{i=1}^n \log P(x_i \mid \theta)
\end{align}
-
対数をとっても最大値をとる場所は変わらない。
-
実際の計算では、負の対数尤度関数を使って最小化問題に変えることが多い。
-\log L(\theta) = -\sum_{i=1}^n \log P(x_i \mid \theta)
✅ 最尤推定量とは
-
最尤法で求めた「パラメータ $\theta$ の推定値」のこと。
-
最尤推定量 $\hat{\theta}$ は観測データ $x_1, ..., x_n$ に対して:
\hat{\theta} = \arg\max_{\theta} L(\theta) = \arg\max_{\theta} P(x_1, x_2, ..., x_n \mid \theta)
✅ 最尤法の流れ
【ステップ1】 モデルの選定
-
どの確率分布を使うか(例:ベルヌーイ分布、正規分布など)を決める。
-
例として、ベルヌーイ分布を選んだとする。ベルヌーイ分布は、成功:1、失敗:0 の2値のデータを扱う確率分布で、パラメータ $\theta$ は成功の確率を表す。
P(x \mid \theta) = \theta^x (1 - \theta)^{1 - x}
【ステップ2】 尤度関数の定義
-
選んだモデルに基づいて、尤度関数 $L(\theta)$ を定義する。
-
観測データが $x_1, x_2, ..., x_n$ のとき、ベルヌーイ分布の尤度関数は次のようになる:
L(\theta) = \prod_{i=1}^n P(x_i \mid \theta) = \prod_{i=1}^n \theta^{x_i} (1 - \theta)^{1 - x_i}
【ステップ3】 対数尤度関数の計算
尤度関数の対数の負の値をとって、負の対数尤度関数 $\log L(\theta)$ を計算する。
-\log L(\theta) = -\sum_{i=1}^n \log P(x_i \mid \theta)
【ステップ4】 最尤推定量の求解
対数尤度関数を最大化する $\theta$ を求める。
\hat{\theta} = \arg\max_{\theta} L(\theta) = \arg\max_{\theta} P(x_1, x_2, ..., x_n \mid \theta)
✅ 深層学習とのつながり
-
深層学習の損失関数(例:交差エントロピー)は、負の対数尤度関数に対応している
-
例えば分類問題では、モデルの出力確率と正解ラベルの組み合わせの「尤度」を最大化することが、交差エントロピー損失の最小化と同じ意味になる
-
つまり、深層学習の学習は「観測データが最も起こりやすくなるようなパラメータ(重み)」を探す最尤推定の一種である