統計検定の勉強をしていて気になったので、考えてみました。
細かい計算は横に置いて、体感的な理解ができるように説明してみます。
なぜn-1で割る?
標本分散と不偏分散を比較すると
標本分散:nで割る
不偏分散:n-1で割る
という差から 標本分散 < 不偏分散 という大小関係がわかります。
この大小関係が理解の上で非常に重要なので、まずはここを抑えてください。
具体例を考える
さて、以下のような問題を考えます。
①A君は100枚のシールと1つの20面ダイスを持っています。
②A君は20面ダイスにこのシールを貼りました。
③ここにB君とC君がいます。
④B君はシールの数が100枚ということを知っていますが、各面に何枚ずつシールが貼られているかはわかりません。
⑤C君はシールの数を知りません。
この条件のもと、A君は20面ダイスを2回振り、
1回目で出たダイスの面にはシールが4個、
2回目で出たダイスの面にはシールが7個貼られていました。
B君の立場
さて、B君はシールの数が100枚ということを知っています。つまり、真の平均が5枚/面であることを知っています
そこで、B君はこの真の平均を使って分散を計算してみることにしました。
$$
((5-4)^{2} + (5-7)^{2}) / 2 = 2.5
$$
C君の立場
一方、C君はシールの数を知らないので真の平均が何枚/面なのかを知りません
そこで、標本平均を求め、それを用いて分散を計算してみることにしました
$$
μ=(4 + 7)/2 = 5.5 \
$$
$$
((5.5-4)^{2} + (5.5-7)^{2}) / 2 = 2.25
$$
結果
B君とC君の計算結果には差が出ました。これはなぜでしょうか?
それは
①標本平均は真の平均からずれる
②そのずれ方は分散を小さくする方向である
ということに起因しています。このことから
標本分散 < 真の分散
という大小関係が発生するため、これを補正するためにnではなくn-1で割る必要があったということです
以上