機械学習を勉強していると何故、そうなるのか腑に落ちないことがよくあります。そんな機械学習の暗闇に斜めからスポットライトをあてたい。テーマは「不偏分散は何故、$N$ ではなく $N-1$ で割るのか」。直感的な説明を優先したいので厳密な説明を期待している方は他の記事を参照ください。
次の式を知っている人が本稿の対象です。
標本の分散:
$$ s^2=\frac{1}{N}\sum_{i=1}^{N} \left (x_i - \bar{x} \right) ^2$$
不偏分散:
$$ \hat{\sigma}^2=\frac{1}{N-1}\sum_{i=1}^{N} \left (x_i - \bar{x} \right) ^2$$
ここで $N$ は標本数、$\bar{x}$ は標本の平均
N-1 で割る理由
不偏分散 $\hat{\sigma}^2$ は、母分散 $\sigma^2$ の点推定です。
標本から母分散(母集団の分散)を推定するときに用います(ここ重要)。
$N-1$ で割る不偏分散は、標本分散 $s^2$ よりも大きな値になります。逆にいうと標本の分散(の期待値)は、母分散より小さくなる(偏りがある)ということですが、なぜ小さくなるのかそれが疑問です。
母集団(母平均 $\mu$、母分散 $\sigma^2$)から標本を無作為抽出します。
上図のように母平均に近い標本の場合、標本の分散は母分散より小さくなりますが、次図のように母平均から遠く離れると母分散より大きくなるので大小が打ち消しあい標本の分散(の期待値)は偏りません。
次図のように標本平均が母平均から上振れすると標本の分散は、母分散より小さくなります。
上振れと下振れのどちらも標本の分散は母分散より小さくなるので打ち消しあうことはありません。標本平均と母平均との乖離が原因で標本の分散(の期待値)は、母分散より小さくなるということです。
以上が標本の分散(の期待値)が母分散より小さくなる理由です。
N-1 の理由
無作為抽出を何度も繰り返したとき標本平均 $\bar{x}$ の分布は、母集団の分布がどのような分布であっても、平均 $\mu$、分散 $\frac{\sigma^2}{N}$ の正規分布になることが知られています(中心極限定理)。
母平均 $\mu$ を用いて母分散を推定するときは、$N-1$ ではなく $N$ で割りますが(次式)
多くの場合、母平均は未知なので上式のままだと計算できません。
「標本の分散」と「標本平均の分散」に分解し、「標本平均の分散」を期待値 $\frac{\sigma^2}{N}$ に置き換えます。
$\frac{\sigma^2}{N}$ を左辺に移します。
$$ \hat{\sigma}^2 - \frac{\hat{\sigma}^2}{N} \cong \frac{1}{N}\sum_i^N \left(x_i - \bar{x} \right)^2$$
$$ \frac{N-1}{N}\hat{\sigma}^2 \cong \frac{1}{N}\sum_i^N \left(x_i - \bar{x} \right)^2$$
これより
$$ \hat{\sigma}^2 \cong \frac{1}{N-1}\sum_i^N \left(x_i - \bar{x} \right)^2$$
$N-1$ で割る不偏分散となりました。
きちんとした導出は参考リンクを参照ください。
参考リンク
大数の法則から中心極限定理を経て不偏分散へという次の書籍の説明が、個人的に分かり易かったです。