0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

標本分散と不偏分散、どっちがn-1になるんだっけ?

Posted at

1. 概要「迷ったらn=1の場合を考えろ」

標本分散と不偏分散、
どっちが$\frac{\displaystyle 1}{\displaystyle n}\displaystyle\sum^n_{i=1}(x_i-\bar{x})^2$で、どっちが$\frac{\displaystyle 1}{\displaystyle n-1}\displaystyle\sum^n_{i=1}(x_i-\bar{x})^2$だったっけ?
と迷うときがある。

そんなときは、$n=1$のサンプルを考えるとわかりやすい、というお話。

2. 標本分散「n=1なら常にゼロ」

そもそも「分散」とは、データの散らばり具合である。
散らばりが大きいほど、データは「1か所に集まっていない」といえる。
逆に言えば、「完全に1か所に集まっている」なら、分散は0でなくちゃいけない。
よって、標本にデータが1つしかない場合は、どうあがいても1か所にしかデータがないので、標本分散は$0$になる。

もう一度言う。「$n=1$のときに、$0$になるほうが標本分散」である。

2-1. 分母がnのほうが標本分散

$$\frac{1}{n}\sum^n_{i=1}(x_i-\bar{x})^2$$

は、$n=1$のときに、

$$\frac{1}{1}(x_1-\bar{x})^2$$

となり、$x_1$しかない今回、$\bar{x}=x_1$だから、

$$\frac{1}{1}(0)^2=0$$

のように、確かに $0$ となる。よって、こっちが標本分散だ。

3. 不偏分散「n=1だと常にエラー」

不偏分散は、「母分散の予測値」である。
母集団からデータをいくつかとってきて標本を作り、その標本分散をもとに母集団の分散(母分散)を予測するのだ。

具体的には、「母分散はたぶん、標本分散の$n/(n-1)$倍だろう」と予測する。

この標本のサンプルサイズが $n=1$だとどうだろう。
データが$1$つしかないせいで、標本分散は常に$0$だ。常に$0$である標本分散が、改めて$0$であることが分かったところで、何のヒントも得られていない。
何のヒントもないので、「母集団の散らばり」を予測することが全くできない。
予測が全くできないので、予測値はエラーを返さざるを得ない。

もう一度言う。「$n=1$のときに、エラーになるほうが不偏分散」である。

3-1. 分母がn-1のほうが不偏分散

$$\frac{1}{n-1}\sum^n_{i=1}(x_i-\bar{x})^2$$

は、$n=1$のときに、分母が$0$となり、エラーとなる。
よって、こっちが不偏分散だ。

4. 結論

$$\frac{1}{n}\sum^n_{i=1}(x_i-\bar{x})^2$$

は、$n=1$のときに、「データは1か所にまとまっている」ことを表す $0$ となる。
よって、こっちが標本分散である。

一方、
$$\frac{1}{n-1}\sum^n_{i=1}(x_i-\bar{x})^2$$

は、$n=1$のときに、「母分散を全く予測できない」ことを表すエラーとなる。
よって、こっちが不偏分散である。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?