1. 概要「迷ったらn=1の場合を考えろ」
標本分散と不偏分散、
どっちが$\frac{\displaystyle 1}{\displaystyle n}\displaystyle\sum^n_{i=1}(x_i-\bar{x})^2$で、どっちが$\frac{\displaystyle 1}{\displaystyle n-1}\displaystyle\sum^n_{i=1}(x_i-\bar{x})^2$だったっけ?
と迷うときがある。
そんなときは、$n=1$のサンプルを考えるとわかりやすい、というお話。
2. 標本分散「n=1なら常にゼロ」
そもそも「分散」とは、データの散らばり具合である。
散らばりが大きいほど、データは「1か所に集まっていない」といえる。
逆に言えば、「完全に1か所に集まっている」なら、分散は0でなくちゃいけない。
よって、標本にデータが1つしかない場合は、どうあがいても1か所にしかデータがないので、標本分散は$0$になる。
もう一度言う。「$n=1$のときに、$0$になるほうが標本分散」である。
2-1. 分母がnのほうが標本分散
$$\frac{1}{n}\sum^n_{i=1}(x_i-\bar{x})^2$$
は、$n=1$のときに、
$$\frac{1}{1}(x_1-\bar{x})^2$$
となり、$x_1$しかない今回、$\bar{x}=x_1$だから、
$$\frac{1}{1}(0)^2=0$$
のように、確かに $0$ となる。よって、こっちが標本分散だ。
3. 不偏分散「n=1だと常にエラー」
不偏分散は、「母分散の予測値」である。
母集団からデータをいくつかとってきて標本を作り、その標本分散をもとに母集団の分散(母分散)を予測するのだ。
具体的には、「母分散はたぶん、標本分散の$n/(n-1)$倍だろう」と予測する。
この標本のサンプルサイズが $n=1$だとどうだろう。
データが$1$つしかないせいで、標本分散は常に$0$だ。常に$0$である標本分散が、改めて$0$であることが分かったところで、何のヒントも得られていない。
何のヒントもないので、「母集団の散らばり」を予測することが全くできない。
予測が全くできないので、予測値はエラーを返さざるを得ない。
もう一度言う。「$n=1$のときに、エラーになるほうが不偏分散」である。
3-1. 分母がn-1のほうが不偏分散
$$\frac{1}{n-1}\sum^n_{i=1}(x_i-\bar{x})^2$$
は、$n=1$のときに、分母が$0$となり、エラーとなる。
よって、こっちが不偏分散だ。
4. 結論
$$\frac{1}{n}\sum^n_{i=1}(x_i-\bar{x})^2$$
は、$n=1$のときに、「データは1か所にまとまっている」ことを表す $0$ となる。
よって、こっちが標本分散である。
一方、
$$\frac{1}{n-1}\sum^n_{i=1}(x_i-\bar{x})^2$$
は、$n=1$のときに、「母分散を全く予測できない」ことを表すエラーとなる。
よって、こっちが不偏分散である。