不偏標本分散
データ$\{X_1, \ldots, X_N\}$の標本平均と不偏標本分散は、
\overline{X} = \frac{1}{N}\sum_i X_i
s^2 = \frac{1}{N - 1}\sum_i\,(X_i - \overline{X})^2
のように定義されます。
名前には混乱があり、巷の教科書・サイトでは、不偏標本分散や不偏分散のほか単に標本分散と呼ばれたりします。
ここでは、まぎらわしさを避けるのを優先して、不偏標本分散を採用します。
データに含まれる値$X_i$は、標本抽出(サンプリング)のたびに確率的に変化するので、$\overline{X}$と$s^2$の値もデータごとに変化してばらつきます。
不偏標本分散の不偏性
「なぜNから1を引いた数で割るのか?」は、統計学入門者の定番の疑問でしょう。
不偏標本分散$s^2$は、確率変数の分散$\sigma^2$の不偏推定量となります。つまり、$s^2$の期待値は、$N$を問わずに$\sigma^2$に一致します。
\text{E}(s^2) = \sigma^2
逆に言えば、Nで割るとすると、分母は大きく全体は小さくなるので、期待値の意味で過小推定することになります。
また、$s^2$の不偏性は確率変数の分布によらず、期待値と分散をもつという条件で一般の確率変数の場合に成り立つのも重要ポイントです。
証明
〈前提〉$X_i$の期待値を$\mu$、分散を$\sigma^2$、無相関データとする。
\begin{align}
\text{E}(s^2) &= \text{E}\!\left(\frac{1}{N - 1}\sum_i\,(X_i - \overline{X})^2\right) \\
&= \frac{1}{N - 1}\sum_i\text{E}((X_i - \overline{X})^2)
\end{align}
ここで、
\begin{align}
\text{E}((X_i - \overline{X})^2) &= \text{E}(((X_i - \mu) - (\overline{X} - \mu))^2) \\
&= \text{E}((X_i - \mu)^2 - 2\,(X_i - \mu)\,(\overline{X} - \mu) + (\overline{X} - \mu)^2) \\
&= \text{E}((X_i - \mu)^2) - 2\,\text{E}((X_i - \mu)\,(\overline{X} - \mu)) + \text{E}((\overline{X} - \mu)^2) \\
&= \text{Var}(X_i) - 2\,\text{Cov}(X_i, \overline{X}) + \text{Var}(\overline{X})
\end{align}
さらに、
\text{Var}(X_i) = \sigma^2
\begin{align}
\text{Cov}(X_i, \overline{X}) &= \text{Cov}\!\left(X_i,\ \frac{1}{N}\sum_j X_j\right) \\
&= \frac{1}{N}\sum_j\text{Cov}(X_i,\ X_j) \\
&= \frac{\sigma^2}{N}
\end{align}
\begin{align}
\text{Var}(\overline{X}) &= \text{Var}\!\left(\frac{1}{N}\sum_j X_j\right) \\
&= \frac{1}{N^2}\sum_j\text{Var}(X_j) \\
&= \frac{\sigma^2}{N}
\end{align}
となるので、
\begin{align}
\text{E}((X_i - \overline{X})^2) &= \sigma^2 - 2\,\frac{\sigma^2}{N} + \frac{\sigma^2}{N} \\
&= \sigma^2 - \frac{\sigma^2}{N}
\end{align}
となるので、結局、
\begin{align}
\text{E}(s^2) &= \frac{1}{N - 1}\sum_i\left(\sigma^2 - \frac{\sigma^2}{N}\right) \\
&= \frac{N\sigma^2 - \sigma^2}{N - 1} \\
&= \sigma^2
\end{align}
となり、不偏性を満たす。(証明終わり)