標本分散*(偏りのある標本分散)の導出
機械学習の教科書としてはお馴染みのPRML(Pattern Recognition and Machine Learning)を読んでいるとき, "簡単な計算で" [1] 求まるはずの標本分散(1.58)の導出に少々苦労したので投稿.
$$
\mathbb{E}[ \sigma_{\rm ML}^2 ] = \left( \frac{N - 1}{N} \right) \sigma^2 \tag{1.58}
$$
あくまでも導出が目的なので, 標本分散そのものの解説ではありません.
また, より簡単な導出や間違いがあればどんどんコメントください.
以下, 式番号で(a.)がつくものは導出の上で必要な一般的な事実や定理, (a.)がついていない式番号はPRMLと対応しています.
*「標本分散」が不偏分散を意味する文献もありますが,ここではPRMLに則り, 偏りのない分散のことを「標本分散」と呼称します.
前提
分散$\sigma^2$, 平均$\mu$のガウス分布に従う互いに独立な確率変数$x$の$N$個の標本$\boldsymbol{\mathsf{x}} = ({x_1, x_2, ..., x_N})$があるとき, このデータの標本平均$\mu_{\rm ML}$は一般的な定義から,
$$
\mu_{\rm ML} = \frac{1}{N} \sum_{n=1}^N{x_n}, \tag{1.55}
$$
標本分散は,
$$
\sigma^2_{\rm ML} = \frac{1}{N} \sum_{n=1}^N{ (x_n - \mu_{\rm ML})^2 } \tag{1.56}
$$
と表されます. ここで標本平均や標本分散に$_{\rm ML}$とついているのは, PRMLで最尤(Most Likelihood)解として導いているからです. 単純に母数($\mu, \sigma$)と区別するための目印だと思ってください.
準備
次に, $\mathbf{x}$の要素のひとつである, 確率変数$x_i$の期待値$\mathbb{E}[x_i]$は, 母平均$\mu$に一致するので,
$$
\mathbb{E}[x_i] = \mu. \tag{a.1}
$$
確率変数$X$に関して, 一般に分散${\rm var}[X] = \mathbb{E}[X^2] - \mathbb{E}[X]^2$であるので, $x_i$の母分散$\sigma^2$は$\sigma^2 = \mathbb{E}[x_i^2] - \mathbb{E}[x_i]^2$. ここに(a.1)を代入し,
$$
\sigma^2 = \mathbb{E}[x_i^2] -\mu^2
$$
と書けます. これを$\mathbb{E}[x_i^2]$について解いて,
$$
\mathbb{E}[x_i^2] = \sigma^2 + \mu^2 \tag{a.2}
$$
としておきます.
また, $x_i$とは異なるもう一つの確率変数$x_j(j \neq i)$の積$x_i x_j$の期待値は, $x_i$と$x_j$が独立(独立であれば無相関)であることから,
$$
\mathbb{E}[x_i x_j] = \mathbb{E}[x_i] \mathbb{E}[x_j] = \mu^2\tag{a.3}
$$
となります. 特に(a.2)と(a.3)が導出のポイントです.
導出
もう一度ゴールを確認しておきます.
$$
\mathbb{E}[ \sigma_{\rm ML}^2 ] = \left( \frac{N - 1}{N} \right) \sigma^2 \tag{1.58}
$$
式が煩雑になるので, いきなり期待値をとるのではなく, まずは$\sigma^2_{\rm ML}$を展開していきます.
\begin{align}
\sigma^2_{\rm ML} &= \frac{1}{N} \sum_{n=1}^N{ \left( x_n - \mu_{\rm ML} \right)^2 } \\
&= \frac{1}{N} \sum_{n=1}^N{ \left( x_n - \frac{1}{N} \sum_{m=1}^N{x_m} \right)^2 } \\
&= \frac{1}{N} \sum_{n=1}^N{ \left\{ x_n^2 - \frac{2}{N} x_n\sum_{m=1}^N{x_m} + \left(\frac{1}{N} \sum_{m=1}^N{x_m} \right)^2 \right\} } \tag{a.4}
\end{align}
様子がわかりやすいように$\sum$の中身を列挙してみます. $\sum$の扱いに慣れている方は読み飛ばしてください.
期待値の一般的な性質$\mathbb{E}[kX]=k\mathbb{E}[X]$($k$は定数)などから, 定数の扱いは簡単なので$x$の係数は一旦無視します.
\begin{align}
\begin{split}
(\text{a.4}\, 第一項) &= \sum_{n=1}^N x_n^2 = x_1^2 + x_2^2 + \dots + x_N^2 \\
(\text{a.4}\, 第二項) &= \sum_{n=1}^N x_n \sum_{m=1}^N x_m \\
&= (x_1 + x_2 + \dots + x_N)(x_1 + x_2 + \dots + x_N) \\
&= (x_1 x_1 + x_1 x_2 + \dots + x_1 x_N ) + (x_2 x_1 + x_2 x_2 + \dots + x_2 x_N) \\
&\quad + \dots + (x_N x_1 + x_N x_2 \dots + x_N x_N) \\
&= (x_1^2 + \dots + x_N^2) - 2( x_1 x_2 + x_1 x_3 + \dots + x_{N-1} x_N) \\
(\text{a.4}\, 第三項) &= \sum_{n=1}^N \left( \sum_{m=1}^N x_m \right)^2 \\
&= \sum_{n=1}^N (x_1 + x_2 + \dots + x_N)(x_1 + x_2 + \dots + x_N) \\
&= \sum_{n=1}^N (\text{a.4}\, 第二項) \\
&= N \times (\text{a.4}\, 第二項) \\
\end{split}
\end{align}
複雑に見えた式も結局$x_i x_j(i, j = 1, 2, \dots , N)$をひたすら足し合わせただけのものということがわかります.
ここで$x$の添字に注目すると, 第一項のような添字が同じものどうしの積$x_i^2$と, 第二項や三項に含まれる, 添字が異なるものどうしの積$x_i x_j (i \neq j)$の2種類にわけることができます. (a.2), (a.3)のように, この2種類それぞれについての期待値はすでに知っていることから, (a.4)の続きではこの2種類を分離していくことで期待値が計算しやすくなりそうです.
\begin{align}
\text{(a.4)} &= \frac{1}{N} \sum_{n=1}^N{ \left\{ x_n^2 - \frac{2}{N} \left( x_n^2 + x_n\sum_{\substack{m=1 \\ m \neq n}}^N{x_m} \right) + \frac{1}{N^2} \left( \sum_{m=1}^N x_m^2 + \sum_{m=1}^N x_m \sum_{\substack{l=1 \\ l\neq m}}^N {x_l}\right) \right\} } \\
&= \frac{1}{N} \sum_{n=1}^N \left[ \left\{ \left(1 - \frac{2}{N} \right) x_n^2 + \frac{1}{N^2} \sum_{m=1}^N x_m^2 \right\} + \left\{ -\frac{2}{N} x_n \sum_{\substack{m=1 \\ m \neq n}}^N x_m + \frac{1}{N^2} \sum_{m=1}^N x_m \sum_{\substack{l=1 \\ l \neq m}}^N x_l \right\} \right] \tag{a.5} \\
\end{align}
これで, $x_i^2$と$x_i x_j (i \neq j)$の項が分離できました. 1つ目の中括弧の中身が$x_i^2$を集めたものですね.
いよいよ期待値をとっていきます. 期待値の一般的な性質$\mathbb{E}[X+Y]=\mathbb{E}[X] + \mathbb{E}[Y]$や$\mathbb{E}[kX]=k\mathbb{E}[X]$から,
\begin{align}
\mathbb{E}[\text{(a.5)}] &= \frac{1}{N} \sum_{n=1}^N \left[ \left\{ \left(1 - \frac{2}{N} \right) \mathbb{E}[x_n^2] + \frac{1}{N^2} \sum_{m=1}^N \mathbb{E}[x_m^2] \right\} +
\left\{ -\frac{2}{N} \sum_{\substack{m=1 \\ m \neq n}}^N \mathbb{E}[x_n x_m] + \frac{1}{N^2} \sum_{m=1}^N \sum_{\substack{l=1 \\ l \neq m}}^N \mathbb{E}[x_m x_l] \right\} \right] \\
\end{align}
(a.2), (a.3)を代入して,
\begin{align}
= \frac{1}{N} \sum_{n=1}^N \left[ \left\{ \left(1 - \frac{2}{N} \right) (\mu^2 + \sigma^2) + \frac{1}{N^2} \sum_{m=1}^N (\mu^2 + \sigma^2) \right\} + \left\{ -\frac{2}{N} \sum_{\substack{m=1 \\ m \neq n}}^N \mu^2 + \frac{1}{N^2} \sum_{m=1}^N \sum_{\substack{l=1 \\ l \neq m}}^N \mu^2 \right\} \right] \\
\end{align}
ここまで来ればあとは$\sum$をどんどん外して,
\begin{align}
&= \frac{1}{N} \sum_{n=1}^N \left[ \left\{ \left(1 - \frac{2}{N} \right) (\mu^2 + \sigma^2) + \frac{1}{N} (\mu^2 + \sigma^2) \right\} + \left\{ -\frac{2(N - 1)}{N} \mu^2 + \frac{N - 1}{N} \mu^2 \right\} \right] \\
&= \left(\frac{N - 1}{N} \right)(\mu^2 + \sigma^2) - \left( \frac{N - 1}{N} \right) \mu^2 \\
&= \left( \frac{N - 1}{N} \right) \sigma^2
\end{align}
これで導出完了です.
参考文献
[1] C.M.Bishop, "パターン認識と機械学習 上", p.25-27
[2] "高校数学の美しい物語/不偏標本分散の意味とn-1で割ることの証明" https://mathtrain.jp/huhenbunsan, 2020.10.11