LoginSignup
2
0

More than 1 year has passed since last update.

標本分散の期待値の導出

Last updated at Posted at 2020-10-12

標本分散*(偏りのある標本分散)の導出

機械学習の教科書としてはお馴染みのPRML(Pattern Recognition and Machine Learning)を読んでいるとき, "簡単な計算で" [1] 求まるはずの標本分散(1.58)の導出に少々苦労したので投稿.

$$
\mathbb{E}[ \sigma_{\rm ML}^2 ] = \left( \frac{N - 1}{N} \right) \sigma^2 \tag{1.58}
$$

あくまでも導出が目的なので, 標本分散そのものの解説ではありません.
また, より簡単な導出や間違いがあればどんどんコメントください.
以下, 式番号で(a.)がつくものは導出の上で必要な一般的な事実や定理, (a.)がついていない式番号はPRMLと対応しています.

*「標本分散」が不偏分散を意味する文献もありますが,ここではPRMLに則り, 偏りのない分散のことを「標本分散」と呼称します.

前提

分散$\sigma^2$, 平均$\mu$のガウス分布に従う互いに独立な確率変数$x$の$N$個の標本$\boldsymbol{\mathsf{x}} = ({x_1, x_2, ..., x_N})$があるとき, このデータの標本平均$\mu_{\rm ML}$は一般的な定義から,

$$
\mu_{\rm ML} = \frac{1}{N} \sum_{n=1}^N{x_n}, \tag{1.55}
$$

標本分散は,

$$
\sigma^2_{\rm ML} = \frac{1}{N} \sum_{n=1}^N{ (x_n - \mu_{\rm ML})^2 } \tag{1.56}
$$

と表されます. ここで標本平均や標本分散に$_{\rm ML}$とついているのは, PRMLで最尤(Most Likelihood)解として導いているからです. 単純に母数($\mu, \sigma$)と区別するための目印だと思ってください.

準備

次に, $\mathbf{x}$の要素のひとつである, 確率変数$x_i$の期待値$\mathbb{E}[x_i]$は, 母平均$\mu$に一致するので,

$$
\mathbb{E}[x_i] = \mu. \tag{a.1}
$$

確率変数$X$に関して, 一般に分散${\rm var}[X] = \mathbb{E}[X^2] - \mathbb{E}[X]^2$であるので, $x_i$の母分散$\sigma^2$は$\sigma^2 = \mathbb{E}[x_i^2] - \mathbb{E}[x_i]^2$. ここに(a.1)を代入し,

$$
\sigma^2 = \mathbb{E}[x_i^2] -\mu^2
$$

と書けます. これを$\mathbb{E}[x_i^2]$について解いて,

$$
\mathbb{E}[x_i^2] = \sigma^2 + \mu^2 \tag{a.2}
$$

としておきます.

また, $x_i$とは異なるもう一つの確率変数$x_j(j \neq i)$の積$x_i x_j$の期待値は, $x_i$と$x_j$が独立(独立であれば無相関)であることから,

$$
\mathbb{E}[x_i x_j] = \mathbb{E}[x_i] \mathbb{E}[x_j] = \mu^2\tag{a.3}
$$

となります. 特に(a.2)と(a.3)が導出のポイントです.

導出

もう一度ゴールを確認しておきます.

$$
\mathbb{E}[ \sigma_{\rm ML}^2 ] = \left( \frac{N - 1}{N} \right) \sigma^2 \tag{1.58}
$$

式が煩雑になるので, いきなり期待値をとるのではなく, まずは$\sigma^2_{\rm ML}$を展開していきます.

\begin{align}

\sigma^2_{\rm ML} &= \frac{1}{N} \sum_{n=1}^N{ \left( x_n - \mu_{\rm ML} \right)^2 } \\
&= \frac{1}{N} \sum_{n=1}^N{ \left( x_n - \frac{1}{N} \sum_{m=1}^N{x_m} \right)^2 } \\
&= \frac{1}{N} \sum_{n=1}^N{ \left\{ x_n^2 - \frac{2}{N} x_n\sum_{m=1}^N{x_m} + \left(\frac{1}{N} \sum_{m=1}^N{x_m} \right)^2 \right\} } \tag{a.4}

\end{align}

様子がわかりやすいように$\sum$の中身を列挙してみます. $\sum$の扱いに慣れている方は読み飛ばしてください.
期待値の一般的な性質$\mathbb{E}[kX]=k\mathbb{E}[X]$($k$は定数)などから, 定数の扱いは簡単なので$x$の係数は一旦無視します.

\begin{align}
\begin{split} 
(\text{a.4}\, 第一項) &= \sum_{n=1}^N x_n^2 = x_1^2 + x_2^2 + \dots + x_N^2 \\

(\text{a.4}\, 第二項) &= \sum_{n=1}^N x_n \sum_{m=1}^N x_m \\ 
  &= (x_1 + x_2 + \dots + x_N)(x_1 + x_2 + \dots + x_N) \\
  &= (x_1 x_1 + x_1 x_2 + \dots + x_1 x_N ) + (x_2 x_1 + x_2 x_2 + \dots + x_2 x_N) \\ 
    &\quad + \dots + (x_N x_1 + x_N x_2 \dots + x_N x_N) \\
  &= (x_1^2 + \dots + x_N^2) - 2( x_1 x_2 + x_1 x_3 + \dots + x_{N-1} x_N) \\

(\text{a.4}\, 第三項) &= \sum_{n=1}^N \left( \sum_{m=1}^N x_m \right)^2 \\
  &= \sum_{n=1}^N (x_1 + x_2 + \dots + x_N)(x_1 + x_2 + \dots + x_N) \\
  &= \sum_{n=1}^N (\text{a.4}\, 第二項) \\
  &= N \times (\text{a.4}\, 第二項) \\

\end{split}
\end{align}

複雑に見えた式も結局$x_i x_j(i, j = 1, 2, \dots , N)$をひたすら足し合わせただけのものということがわかります.
ここで$x$の添字に注目すると, 第一項のような添字が同じものどうしの積$x_i^2$と, 第二項や三項に含まれる, 添字が異なるものどうしの積$x_i x_j (i \neq j)$の2種類にわけることができます. (a.2), (a.3)のように, この2種類それぞれについての期待値はすでに知っていることから, (a.4)の続きではこの2種類を分離していくことで期待値が計算しやすくなりそうです.

\begin{align}

\text{(a.4)} &= \frac{1}{N} \sum_{n=1}^N{ \left\{ x_n^2 - \frac{2}{N} \left( x_n^2 + x_n\sum_{\substack{m=1 \\ m \neq n}}^N{x_m} \right) + \frac{1}{N^2} \left( \sum_{m=1}^N x_m^2 + \sum_{m=1}^N x_m \sum_{\substack{l=1 \\ l\neq m}}^N {x_l}\right) \right\} } \\
  &= \frac{1}{N} \sum_{n=1}^N \left[ \left\{ \left(1 - \frac{2}{N} \right) x_n^2 + \frac{1}{N^2} \sum_{m=1}^N x_m^2 \right\} + \left\{ -\frac{2}{N} x_n \sum_{\substack{m=1 \\ m \neq n}}^N x_m + \frac{1}{N^2} \sum_{m=1}^N x_m \sum_{\substack{l=1 \\ l \neq m}}^N x_l \right\} \right] \tag{a.5} \\

\end{align}

これで, $x_i^2$と$x_i x_j (i \neq j)$の項が分離できました. 1つ目の中括弧の中身が$x_i^2$を集めたものですね.
いよいよ期待値をとっていきます. 期待値の一般的な性質$\mathbb{E}[X+Y]=\mathbb{E}[X] + \mathbb{E}[Y]$や$\mathbb{E}[kX]=k\mathbb{E}[X]$から,

\begin{align}

\mathbb{E}[\text{(a.5)}] &= \frac{1}{N} \sum_{n=1}^N \left[ \left\{ \left(1 - \frac{2}{N} \right) \mathbb{E}[x_n^2] + \frac{1}{N^2} \sum_{m=1}^N \mathbb{E}[x_m^2] \right\} + 
 \left\{ -\frac{2}{N} \sum_{\substack{m=1 \\ m \neq n}}^N \mathbb{E}[x_n x_m] + \frac{1}{N^2} \sum_{m=1}^N \sum_{\substack{l=1 \\ l \neq m}}^N \mathbb{E}[x_m x_l] \right\} \right] \\

\end{align}

(a.2), (a.3)を代入して,

\begin{align}

  = \frac{1}{N} \sum_{n=1}^N \left[ \left\{ \left(1 - \frac{2}{N} \right) (\mu^2 + \sigma^2) + \frac{1}{N^2} \sum_{m=1}^N (\mu^2 + \sigma^2) \right\} + \left\{ -\frac{2}{N} \sum_{\substack{m=1 \\ m \neq n}}^N \mu^2 + \frac{1}{N^2} \sum_{m=1}^N \sum_{\substack{l=1 \\ l \neq m}}^N \mu^2 \right\} \right] \\

\end{align}

ここまで来ればあとは$\sum$をどんどん外して,

\begin{align}

  &= \frac{1}{N} \sum_{n=1}^N \left[ \left\{ \left(1 - \frac{2}{N} \right) (\mu^2 + \sigma^2) + \frac{1}{N} (\mu^2 + \sigma^2) \right\} + \left\{ -\frac{2(N - 1)}{N} \mu^2 + \frac{N - 1}{N} \mu^2 \right\} \right] \\
  &= \left(\frac{N - 1}{N} \right)(\mu^2 + \sigma^2) - \left( \frac{N - 1}{N} \right) \mu^2 \\
  &= \left( \frac{N - 1}{N} \right) \sigma^2

\end{align}

これで導出完了です.

参考文献

[1] C.M.Bishop, "パターン認識と機械学習 上", p.25-27
[2] "高校数学の美しい物語/不偏標本分散の意味とn-1で割ることの証明" https://mathtrain.jp/huhenbunsan, 2020.10.11

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0