※こちらの記事は"Pythonで学ぶあたらしい統計学の教科書"に基づいて、統計学初学者が頭の整理とアウトプットを目的に掲載している記事です。本の内容のみならず、自分で調べた内容、自分のイメージにマッチした内容を追記している場合もあります。
※今回はまだまだPythonを使用しません。
私が投稿している統計学2 - 統計量に記載していた、分散についてもう少し詳しく見ていきます。
1. 母分散
母分散については、定義式のみ記載しておきます。
本記事の中では使用はしませんが、標本分散と不偏分散の関係において今後必要になるため、区別できるように紹介だけしておきます。
$$ \sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i-\mu)^2$$
2. 標本分散
先に式を見たほうがイメージ湧きやすいと思います。
標本分散$s^2$は式(1)のように表現されます。
$$s^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i-\bar{x})^2 = \sum_{i=1}^{N}P(x_i)(x_i-\bar{x})^2 \tag{1}$$
上記の式の変数を説明しておきますが、$x_i$は標本を表しています。$\bar{x}$は平均値です。
期待値は下記の式で表現されます。期待値は標本の総和をサンプルサイズ(標本の個数)$N$で割ることで算出されます。
$$\bar{x} = \frac{1}{N}\sum_{i=1}^{N}x_i \tag{2}$$
また、$P(x_i)$は、確率変数$x_i$における確率です。
さて、数式(1)の説明へ移ります。
$(x_i-\bar{x})$を偏差と呼び、偏差の二乗和$\sum(x_i-\bar{x})^2$を偏差平方和と呼びます。
偏差平方和は、データ$x_i$と期待値$\bar{x}$の距離と見なすことができますので、標本分散は「"データと期待値の距離"の期待値」であると言えます。
3. 不偏分散
不偏分散の式は下記の通り表されます。
$$u^2 = \frac{1}{N-1}\sum_{i=1}^{N}(x_i-\bar{x})^2\tag{3}$$
さて、標本分散に引き続き、こちらも分散ですが、何が異なるのでしょうか。
(1)と(3)を比較すると、$u^2 = \frac{N}{N-1}s^2$となっていることがわかります。
つまり、$s^2$は$u^2$より小さいということが式から読み取ることができます。
$s^2$の方が小さいわけですが、何か理由があるのでしょうか。
もちろん理由はあります。
標本分散では、母分散(母集団の分散)$\sigma^2$に比べて分散を過小評価してしまうというバイアスがあります。これを修正したものが、不偏分散です。なぜ、標本分散が母分散と比較した時に過小評価されてしまっているのか、という点については、改めて別の記事で解説しておきます。
参考サイト
なぜ不偏分散はN-1で割るのか - Kosugitti's BLOG
期待値の定義・性質・計算例。平均との違いも! - to-kei.net