最尤法
最尤法は、点推定の方法の一つで、尤度が最大となるように未知パラメータの値を決めて推定量とします。
尤度とは、パラメータがある値であるとしたときにデータが実現する確率です。尤度が最大ということは、そのときデータが最も実現しやすいことを意味します。「パラメータの値が正しい確率」のようには解釈できません。
確率分布を原因、データを結果とすれば、結果の起こりやすさを手がかりに原因について推測しようというアプローチです。
尤度関数
パラメータから尤度への関数を尤度関数といいます。関数の値と関数の区別みたいなもので、カジュアルには区別せずに尤度と呼ばれます。
離散確率変数$X$の確率関数を$p(x \mid \theta)$とすると、尤度関数は
L(\theta \mid X) = p(X \mid \theta)
となります。また、独立なデータ$\{X_1, \ldots, X_N\}$では、
L(\theta \mid X_1, \ldots, X_N) = \prod_i p(X_i \mid \theta)
となります。
連続確率変数の場合は、上の式中の確率関数が確率密度関数に置き換わります。
離散・連続どちらの場合でも、データの独立性により同時確率が確率の積で表されます。独立でなければ単純な積の形とならないことに注意が必要です。
対数尤度関数
対数尤度関数は、文字通り尤度関数の対数をとったものです。
\begin{align}
\ell(\theta \mid X_1, \ldots, X_N) &= \log\!\left(\prod_i p(X_i \mid \theta)\right) \\
&= \sum_i\log p(X_i \mid \theta)
\end{align}
大小関係に変化はなく、尤度関数も対数尤度関数も同じ点で最大値をとります。積の形の尤度関数より和の形の対数尤度関数のほうがずっと微分が簡単なため、最尤法ではふつう対数尤度関数の最大化を考えます。
尤度方程式
対数尤度関数の極値条件を与える次の方程式を尤度方程式といいます。
\frac{\partial}{\partial\theta}\,\ell(\theta \mid X_1, \ldots, X_N) = 0
この方程式を解いて最尤推定量(の候補)を求めます。
尤度方程式は解析的に解けるとは限らず、解けない場合には繰り返し計算によって数値的に解を求めることになります。
例:コインの確率
同じコインを$n$回投げたとき、表が出る回数$X$は二項分布にしたがいます。
コインの表が出る確率$p$の最尤推定量は次のようになります。
\hat{p}_\text{ML} = \frac{X}{n}
証明
〈前提〉$X$は$\text{B}(n,\ p)$にしたがうとする。
二項分布の確率関数
\text{P}(X = k) = \binom{n}{k} p^k\,(1 - p)^{n - k}
より、対数尤度関数は次のように表される。
\ell(p \mid X) = \log\binom{n}{X} + X\log p + (n - X)\log(1 - p)
次に、尤度方程式を立てる。
対数尤度関数の$p$による偏微分係数は、最大値をとる点では0なので、
\frac{\partial}{\partial p}\left(\log\binom{n}{X} + X\log p + (n - X)\log(1 - p)\right) = 0
これを解くと、
\frac{X}{p} - \frac{n - X}{1 - p} = 0
X - np = 0
p = \frac{X}{n}
となる。
よって、$p$の最尤推定量は$\frac{X}{n}$である。(証明終わり)