正規分布モデル
正規分布の確率密度関数は次のように表されます。
f_X(x) = \frac{1}{\sqrt{2\pi\sigma^2}}\,e^{-\frac{(x - \mu)^2}{2\sigma^2}}
平均$\mu$は中心位置、分散$\sigma^2$は散らばり具合(スケールの2乗)に対応します。
この式は、何度も見るうちに気づけば覚えていた人も多いのでは……?
ふつう正規分布モデルといえば、$\mu$と$\sigma^2$がともに未知の場合を指すことが多いですが、片方が未知で片方が既知の場合もあります。
そこで、以下の3パターンのバリエーションが考えられます。
| 未知 | 既知 | |
|---|---|---|
| パターン1 | 平均$\mu$、分散$\sigma^2$ | - |
| パターン2 | 平均$\mu$ | 分散$\sigma^2$ |
| パターン3 | 分散$\sigma^2$ | 平均$\mu$ |
未知・既知の意味を噛み砕いて説明すると、データから推定するパラメータが未知、所与のパラメータが既知です。
また、尤度関数を考えるとき、前者は尤度関数の引数で、後者はただの定数扱いになります。
正規分布の最尤推定量
正規分布の最尤推定量は、以下のようになります。
パターン1:平均・分散未知
平均$\mu$の最尤推定量は標本平均
\overline{X} = \frac{1}{N}\sum_i X_i
です。
また、分散$\sigma^2$の最尤推定量は
\hat{\sigma^2}_\text{ML} = \frac{1}{N}\sum_i\,(X_i - \overline{X})^2
のようになります。
最尤推定§分布、母数とも連続的な場合 - Wikipedia
パターン2:平均未知(分散既知)
この場合でも、平均$\mu$の最尤推定量は標本平均
\overline{X} = \frac{1}{N}\sum_i X_i
です。
パターン3:分散未知(平均既知)
分散$\sigma^2$の最尤推定量は
\hat{\sigma^2}_\text{ML} = \frac{1}{N}\sum_i\,(X_i - \mu)^2
のようになります。
面白いことに、$\mu$の未知/既知によって$\hat{\sigma^2}_\text{ML}$の関数形が違います。$\mu$が既知なら「代用品」の$\overline{X}$をあえて使う理由はない、という直感と合う結果です。
正規分布の最尤推定量の偏り
平均・分散未知の場合の$\hat{\sigma^2}_\text{ML}$と不偏標本分散$s^2$の違いは、「Nで割る」か「(N − 1)で割る」かだけです。これで何が変わるでしょうか?
$\hat{\sigma^2}_\text{ML}$は不偏推定量ではなく、負の偏りをもちます。この偏りは$N$が少ないほど強くなります。
\text{E}(\hat{\sigma^2}_\text{ML}) = \frac{N - 1}{N}\,\sigma^2
証明
〈前提〉$X_i$の期待値を$\mu$、分散を$\sigma^2$とする。
\begin{align}
\text{E}(\hat{\sigma^2}_\text{ML}) &= \text{E}\!\left(\frac{1}{N}\sum_i\,(X_i - \overline{X})^2\right) \\
&= \frac{1}{N}\,\text{E}\!\left(\sum_i\,(X_i - \overline{X})^2\right)
\end{align}
不偏標本分散の記事で示したように、
\sum_i\,(X_i - \overline{X})^2 = \sum_i\,(X_i - \mu)^2 - N\,(\overline{X} - \mu)^2
となるので、
\begin{align}
\text{E}(\hat{\sigma^2}_\text{ML}) &= \frac{1}{N}\,\text{E}\!\left(\sum_i\,(X_i - \mu)^2 - N\,(\overline{X} - \mu)^2\right) \\
&= \frac{1}{N}\sum_i\text{E}((X_i - \mu)^2) - \text{E}((\overline{X} - \mu)^2) \\
&= \frac{1}{N}\sum_i\text{Var}(X_i) - \text{Var}(\overline{X})
\end{align}
さらに、不偏標本分散の記事で示した
\text{Var}(\overline{X}) = \frac{\sigma^2}{N}
により、結局、
\begin{align}
\text{E}(\hat{\sigma^2}_\text{ML}) &= \frac{1}{N}\sum_i\sigma^2 - \frac{\sigma^2}{N} \\
&= \sigma^2 - \frac{\sigma^2}{N} \\
&= \frac{N - 1}{N}\,\sigma^2
\end{align}
となる。(証明終わり)
なお、$N \to \infty$のときの期待値の極限は$\sigma^2$に一致します。(漸近不偏性)
$\hat{\sigma^2}_\text{ML}$と$s^2$の値が漸近することからもわかります。
偏り係数・補正係数のグラフ
偏り係数$\frac{N - 1}{N}$と補正係数$\frac{N}{N - 1}$のグラフです。補正係数を$\hat{\sigma^2}_\text{ML}$に掛けたものが$s^2$という関係があります。
