統計検定準1級の勉強のための解説記事となります。下記にご了承いただける方のみ、お読みください。
以下の動画でも解説していますので、見やすいほうでご覧ください。
学習のポイント
パラメータが二つの場合の連続型確率変数の尤度関数の定義
確率変数 $X$ が連続型分布に従い、その確率密度関数が $f(x \mid \theta_1, \theta_2)$ で与えられるとします。ここで、$\theta_1$ と $\theta_2$ は分布のパラメータを表します。
$n$ 個の独立な観測データ $x_1, x_2, \ldots, x_n$ が得られた場合、尤度関数は各データの確率密度関数の積として定義されます。
$
L(\theta_1, \theta_2; x_1, x_2, \ldots, x_n) = \prod_{i=1}^{n} f(x_i \mid \theta_1, \theta_2)
$
対数尤度関数
対数尤度関数 $\ell(\theta_1, \theta_2; x_1, x_2, \ldots, x_n)$ は、尤度関数 $L(\theta_1, \theta_2; x_1, x_2, \ldots, x_n)$ の自然対数 (底が $e$ の対数) をとったもの です。
$
\ell(\theta_1, \theta_2; x_1, x_2, \ldots, x_n) = \ln L(\theta_1, \theta_2; x_1, x_2, \ldots, x_n) = \ln \left( \prod_{i=1}^{n} f(x_i \mid \theta_1, \theta_2) \right) = \sum_{i=1}^{n} \ln f(x_i \mid \theta_1, \theta_2)
$
解答
平均 $\mu$ と分散 $v = \sigma^2$ が未知の正規分布 $N(\mu, v)$ に独立同一に従う標本 $X_1, \ldots, X_n$ が得られている場合の、平均 $\mu$ および分散 $v$ の最尤推定量を求めます。
正規分布の確率密度関数
正規分布の確率密度関数は次のとおりです。
$$f(x; \mu, v) = \frac{1}{\sqrt{2\pi v}} \exp\left(-\frac{(x-\mu)^2}{2v}\right)$$
ここで、$μ$ は平均、$v$ は分散です。
尤度関数の導出
正規分布 $N(\mu, v)$ に従う独立同一分布の標本 $X_1, \dots, X_n$ が与えられているため、尤度関数は次のように個々の確率密度関数の積として表されます。
$$L(\mu, v; x_1, \dots, x_n) = \prod_{i=1}^n f(x_i; \mu, v) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi v}} \exp\left(-\frac{(x_i-\mu)^2}{2v}\right)$$
対数尤度関数の導出
尤度関数を直接最大化するよりも、対数尤度関数を最大化する方が計算上簡単です。対数関数は単調増加関数なので、対数尤度関数を最大化することは尤度関数を最大化することと同じです。
対数尤度関数$\ell(\mu, v; x_1, \dots, x_n)$は次のとおりです。
$$\ell(\mu, v; x_1, \dots, x_n) = \log L(\mu, v; x_1, \dots, x_n) = \log \prod_{i=1}^n \frac{1}{\sqrt{2\pi v}} \exp\left(-\frac{(x_i-\mu)^2}{2v}\right) $$
$$= \sum_{i=1}^n \log \left[ \frac{1}{\sqrt{2\pi v}} \exp\left(-\frac{(x_i-\mu)^2}{2v}\right) \right]= \sum_{i=1}^n \log \left(\frac{1}{\sqrt{2\pi v}}\right) - \sum_{i=1}^n \frac{(x_i-\mu)^2}{2v}$$
$$= -\frac{n}{2} \log(2\pi v) - \frac{1}{2v} \sum_{i=1}^n (x_i-\mu)^2$$
最尤推定量の導出
μ に関する最尤推定量
対数尤度関数 $\ell(\mu, v; x_1, \dots, x_n)$ を $\mu$ の関数として見たとき、第一項 $-\frac{n}{2}\log(2\pi v)$ は $\mu$ に依存せず、定数とみなせます。
よって、最大化すべきは $\mu$ に依存する項、つまり
$$-\frac{1}{2v}\sum_{i=1}^n (x_i-\mu)^2$$
の部分です。
よって、対数尤度関数 $\ell(\mu, v; x_1, \dots, x_n)$ を最大化することは、$\sum_{i=1}^n (x_i-\mu)^2$ を最小化することと同じになります。これは、$\sum_{i=1}^n (x_i-\mu)^2$ の項が、負の定数 $-\frac{1}{2v}$ を掛けている形になっているためです。
ここで、
$$\sum_{i=1}^n (x_i-\mu)^2 = \sum_{i=1}^n ((x_i-\overline{x})+(\overline{x}-\mu))^2$$
$$ = \sum_{i=1}^n {( (x_i-\overline{x})^2 + 2(x_i-\overline{x})(\overline{x}-\mu) + (\overline{x}-\mu)^2 )} $$
$$ = \sum_{i=1}^n (x_i-\overline{x})^2 + \sum_{i=1}^n 2(x_i-\overline{x})(\overline{x}-\mu) + \sum_{i=1}^n (\overline{x}-\mu)^2 $$
各項の計算
第一項: $\sum_{i=1}^n (x_i-\overline{x})^2$
これは、偏差平方和であり、$\mu$ に依存しないため、以降の $\mu$ に関する議論では定数として扱います。
第二項: $\sum_{i=1}^n 2(x_i-\overline{x})(\overline{x}-\mu)$
定数 $2(\overline{x}-\mu)$ は $\sum$ の外に出せます。
$$ = 2(\overline{x}-\mu) \sum_{i=1}^n (x_i-\overline{x}) $$
ここで、$\sum_{i=1}^n (x_i-\overline{x}) = 0$ となる性質を利用して、
$$ 2(\overline{x}-\mu) \sum_{i=1}^n (x_i-\overline{x}) = 2(\overline{x}-\mu) \times 0 = 0 $$
第三項: $\sum_{i=1}^n (\overline{x}-\mu)^2$
$(\overline{x}-\mu)$ は $i$ に依存しない定数なので、$\sum_{i=1}^n (\overline{x}-\mu)^2 = (\overline{x}-\mu)^2 \sum_{i=1}^n 1 = n(\overline{x}-\mu)^2$ となります。
以上の結果をまとめると、
$$ = \sum_{i=1}^n (x_i-\overline{x})^2 + \sum_{i=1}^n 2(x_i-\overline{x})(\overline{x}-\mu) + \sum_{i=1}^n (\overline{x}-\mu)^2 $$
$$ = \sum_{i=1}^n (x_i-\overline{x})^2 + 0 + n(\overline{x}-\mu)^2 $$
$$ = \sum_{i=1}^n (x_i-\overline{x})^2 + n(\overline{x}-\mu)^2 $$
計算結果
上記の第一項は $\mu$ に依存しない定数なので、全体の和を最小にするためには、第二項 $n(\overline{x}-\mu)^2$ を最小にすれば良いことが分かります。
第二項 $n(\overline{x}-\mu)^2$ は、$(\overline{x}-\mu)^2 \ge 0$ より、最小値 0 を $\mu = \overline{x}$ でとります。
つまり、μ の最尤推定量は、 $\hat{\mu} = \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$です。
vに関する最尤推定量
正規分布の最尤推定において、平均 $\mu$ の最尤推定量は分散 $v$ に依存しないことがわかりました。実際、$\mu$ の最尤推定量 $\hat{\mu}$ は常に標本平均 $\overline{x}$ と導出されました。
この性質を利用し、まず $\mu$ の最尤推定量 $\overline{x}$ を対数尤度関数に代入することで、対数尤度関数を $v$ のみの関数に帰着させます。その後、この関数を $v$ について最大化することで、分散 $v$ の最尤推定量を得るように考えます。
対数尤度関数にμの最尤推定量を代入
対数尤度関数に $\mu$ の最尤推定量 $\hat{\mu} = \overline{x}$ を代入します。
元の対数尤度関数は、
$$ \ell(\mu, v; x_1, \dots, x_n) = -\frac{n}{2}\log(2\pi v) - \frac{1}{2v}\sum_{i=1}^n (x_i-\mu)^2 $$
です。$\mu$ に $\overline{x}$ を代入すると、
$$ \ell(\overline{x}, v; x_1, \dots, x_n) = -\frac{n}{2}\log(2\pi v) - \frac{1}{2v}\sum_{i=1}^n (x_i-\overline{x})^2 $$
$$ = -\frac{n}{2}\log(2\pi v) -\frac{ns}{2v} $$
対数尤度関数を v で微分し、極大値を求める
対数尤度関数を $v$ で微分します。
$$ \frac{\partial \ell}{\partial v} = -\frac{n}{2v} + \frac{ns}{2v^2} = \frac{n(s - v)}{2v^2} $$
最尤推定量を得るために、$\frac{\partial \ell}{\partial v} = 0$ とおくと、
$$ \frac{n(s - v)}{2v^2} = 0 $$
です。$n>0, v^2>0$ より、分子が 0 となるのは、$ v = s $のときです。
したがって、臨界点として $v = s = \frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})^2$ が得られました。
一階微分による増減の調査
次に、この $v = s$ が最大値を与えるか、一階微分による増減を調べます。
$\frac{\partial \ell}{\partial v} = \frac{n(s - v)}{2v^2}$ の符号を $v$ の値によって確認します。
- $0 < v < s$ のとき、$s - v > 0$ なので、$\frac{\partial \ell}{\partial v} > 0$ となり、$\ell$ は増加関数です。
- $v > s$ のとき、$s - v < 0$ なので、$\frac{\partial \ell}{\partial v} < 0$ となり、$\ell$ は減少関数です。
この増減の変化から、$v = s$ の前後で対数尤度関数 $\ell$ は増加から減少に転じることがわかります。したがって、$v = s$ で $\ell$ は極大値を取ります。
以上から、分散 $v$ の最尤推定量は、
$$ \hat{v} = s = \frac{1}{n} \sum_{i=1}^n (x_i-\overline{x})^2 $$
です。