LoginSignup
4
4

More than 3 years have passed since last update.

標本(平均|分散)の平均について復習してみた

Posted at

0. お断り

特定のプログラミング言語の内容ではない。
が、統計に関するプログラミングをするなら役に立つはずの有益な情報であり、qiitaの規約に反さないと思い、記事にした。

1. 標本(平均|分散)は変数です

「標本って、母集団の一部をとってきて議論するための集合」と、わかっているつもりでも、実際に「サイコロをn回振ったときの標本平均の平均を求めよ」と言われると、手が動かない。

これは、標本とは何なのか、思い出そうとすれば思い出せるけど、「問題文を解くための前提知識」、つまり「常識」にまでなっていないのが原因なんだと思う。自分にとっての常識になっていない以上、実際に問題を解くときは、意識して思い出そうとしなければいけないんだと思った。

参考サイト[1]に「標本平均は標本の取り方に依存します」と書いてあることがいい例。ちょっと考えてみれば当たり前[2]。
しかし、慣れないうちは「平均」という言葉が含まれているというだけで、それを変数として考えるアイデアがそもそも頭に浮かばない。

(見出しに付けた、「標本(平均|分散)は変数」という言い方も、本当はよくないのかもしれない。しかし、標本平均と母平均は何が違うのか、「標本平均の平均は母平均と一致する」とはどういう意味なのか、これを理解するためには、「(標本の取り方について議論するとき、あるいはまだ標本を採っていない段階では)標本平均は変数だ」と考える必要がある。)

2. 標本平均の平均

あるサイコロに偏りがほとんど存在しないということを実証するためには、サイコロを限りなくたくさんの回数だけ振り続けないといけない。そんなことはできないから、何度か振って、「偏りはなさそうだね」と「推測」するのが現実的だ。
この「何度か振る」というのは、2-1のように考えれば、母集団から標本を抽出してくる作業と考えることができるので、「サイコロを振った目の平均値」は「標本平均の平均」ということができる。

2-1. サイコロを振ることと標本抽出

サイコロが出しうる目は、区間[1,6]内の自然数であり、これは確率変数である。

母集団を{1,1,1,...,1,2,2,2,...,2,3,3,3,...,3,4,4,4,...,4,5,5,5,...,5,6,6,6,...,6}としてみると、この母集団は、サイコロが今後出し得る目をすべて記録したものを、昇順ソートしたものと言えそうだ。
そして、サイコロを振るのは、この中から一つだけ要素を標本へとコピペ(このコピペを「抽出」という)することに例えられる。

では、標本平均の平均を考えてみよう。今回はサイコロを3回振る場合を考える。
サイコロを3回振ると、要素数n(→∞)の母集団から3個だけ取ってくる組合せを考えることになるから、
nC3通り考えられる。これだけの回数、標本平均をそれぞれ求めて、その平均を出すのは不可能だ。
そこで、「復元抽出」を考える。
サイコロの目の種類が6つあり、これは抽出したことで減ったり増えたりしない。だから、組合せを使うのはナンセンスで、単にべき乗を使って考えるべきなのだ。(アイデンティティを持たない素粒子は区別しないとか言うギブスの修正因子[3]に何か通じるものを感じる気がする)
よって、サイコロの目3つのペアは63通りある。
これを分母として、それぞれの標本平均を足したのを分子にすれば、標本平均の平均が求められるから、

\frac
{
    \frac{1+1+1}{3}+\frac{1+1+2}{3}+...+\frac{6+6+6}{3}
}
{6^3}

を計算したものが答えとなる。※
これではダサいので、実際には


\frac{1}{3\times6^3}
\sum_
{
\begin{matrix}
1{\leq}d_1{\leq}6 \\
1{\leq}d_2{\leq}6 \\
1{\leq}d_3{\leq}6
\end{matrix}
}
(d_1+d_2+d_3)

と、格好つけてかく。

このように「格好つけて」かくと、一般化しやすい。
例えば今回は、サイコロを投げる回数を3としたが、
これを文字nで置き換えると、次のようになる。これが容易に導けるようになる。


\frac{1}{n\times6^n}
\sum_
{
    \begin{align}
        &\forall i{\in}[1,n]{\cap}\mathbb{N},\\
        &1{\leq}d_i{\leq}6
    \end{align}
}
{
    \sum_
    {1{\leq}i{\leq}n}
    {d_i}
}

また、※の答えは、$1+2+...+(n-1)+n=(1+n)+(2+(n-1))+...=\frac{1}{2}n(n+1)$を応用して導ける。

\begin{align}
    & \frac{\frac{1+1+1}{3}+\frac{1+1+2}{3}+...+\frac{6+6+6}{3}}{6^3} \\
    = & \frac{\frac{7+7+7}{2\times3}+\frac{7+7+7}{2\times3}+...}{6^3} \\
    = & \frac{\frac{7+7+7}{2\times3}\times6^3}{6^3} \\
    = & \frac{7+7+7}{2\times3} \\
    = & \frac{7}{2}
\end{align}

2-2. 一般化して考えてみる

さらに一般化するなら、次の通り。これが復元抽出した場合の標本平均の平均となる。


\frac{1}{試行回数\times試行1回での場合の数^{試行回数}}
\sum_
{
値空間の各点
}
{
    \sum_
    {1{\leq}i{\leq}試行回数}
    {i回目の試行での値}
} ...① \\
= 
\frac{1}{試行回数\times試行1回での場合の数^{試行回数}}
\sum_
{
取りうる値すべて
}
{
    \sum_
    {1{\leq}i{\leq}試行回数}
    {i回目の試行での値}
} ...②

「値空間の各点」というのは、筆者が勝手に考えた言葉。
(試行回数)次元の空間で、座標を表すにはパラメータが(試行回数)個必要。
$i(1\leq i\leq 試行回数)$個目のパラメータを、$i$回目にでる値とすると、
この空間の各点が、起こりうる結果を一意に説明する。
ところで、各回数ごとに、取りうる値が違うということは起こり得ないので、この値空間は明らかに超試行回数-3立方体の形をしている。(サイコロの例で例えていうなら、$1 \leq d_i \leq 6$ と一般化できる)
これを利用すれば、②のように、「値空間の各点」などといわずとも「取りうる値すべて(何回目?とか聞くなよ。何回目でも同じなのだから)」と言ってしまうことができる

2-3. 標本平均の平均は母平均に一致する

2-2の②式をさらに変形してみよう。
まず、復元抽出だから、$i回目の試行での値$の期待値は常に母平均に一致する。
したがって、

\begin{align}
&\frac{1}{試行回数}
\sum_
{1{\leq}i{\leq}試行回数}
{i回目の試行での値} \\
&=
\frac{試行回数}{試行回数}

母平均 \\
&=
母平均
\end{align}

といえる。

したがって、②は

\begin{align}
&\frac{1}{試行回数\times試行1回での場合の数^{試行回数}}
\sum_
{
取りうる値すべて
}
{
    \sum_
    {1{\leq}i{\leq}試行回数}
    {i回目の試行での値}
} ...② \\
&=
\frac{母平均}{試行1回での場合の数^{試行回数}}
\sum_
{
取りうる値すべて
}
{
    1
} \\
&=
\frac{母平均}{試行1回での場合の数^{試行回数}}
場合の数 \\
&=
\frac{母平均}{試行1回での場合の数^{試行回数}}
試行1回での場合の数^{試行回数} \\
&= 母平均
\end{align}

と変形され、確かに(少なくとも復元抽出では)標本平均の平均は母平均に一致するということが証明された。

非復元抽出では、分母が$試行1回での場合の数^{試行回数}$が組合せ(の積)で置き換わっているだけ。これは非復元抽出における$場合の数$なのだから、いずれにせよ約分され、母平均に一致することが確認される。

3. 標本分散の平均

2章同様、サイコロで考えて、そこから一般化していくことにする。3-1から3-4は、分散の種類について述べている。3-5は分散のもう一つの公式を紹介している。これらが必要がなければ読み飛ばし、3-6から読んでほしい。

3-1. 4つに分身する分散

東方キャラのフランは4人に分身することができる。
十六夜咲夜は時間を止めることができるため、(2次創作の設定によっては)自らを時分割して任意の人数に分身することができる。
同じように、統計学における「分散」も、表3.1.1の通り4種類に分身することができる。[4]

表3.1.1 4種類の分散

記号 意味 計算方法
$V[X]$ 確率変数Xの分散 $\bigl((各Xと、Xの期待値)の差\bigr)^2の期待値※$
$σ^2$ 母集団の分散(母分散) $\bigl((各値と、母平均)の差\bigr)^2の平均$
$s^2$ 標本の分散(標本分散) $\bigl((各値と、標本平均)の差\bigr)^2の平均$
$\hat{σ}^2$ 標本から母集団の分散を推定したもの (不偏分散) $s^2\times\frac{n}{n-1}$

※この段階では、とりあえず「期待値とは平均のこと」と考えておこう。

これらは「分身」なので、たくさんあるように思えても「本質」は1つしかない。
その本質こそ

「平均と実際の値のギャップ」を2乗することで符号を無効化し、その平均値をとることで、散らばり具合を定量化したもの

ということである。
もちろん、「2乗じゃなくて絶対値のほうがよくない?」という指摘は尤もで、だからこそ分散の平方根として「標準偏差」があるわけだ。
「標準偏差って、2乗した後で平方根を求めることで次元を合わせただけであって、最初から絶対値でやってるのとは根本的に違うよね?」というのも本当はその通り。とはいえ、最初から「平均と実際の値のギャップの絶対値の平均」としてしまうと、この定義式が微分できなくなってしまい(あるいは複雑になってしまい)、数学的に面白くない。

3-2. 母分散と標本分散

3-1で示した「分散の本質」

「平均と実際の値のギャップ」を2乗することで符号を無効化し、その平均値をとることで、散らばり具合を定量化する

により、$σ^2$と$s^2$は説明がつく(表3.1.1に付した「計算方法」と一致している)。

σ^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2 \\
s^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2 \\
μは母平均 \\
\overline{x}は標本平均

これでフランちゃんは3人になった。しかし、$V[X]$や、$\hat{σ}^2$は厄介だ。
これらは3-3および3-4で説明する。

3-3. 確率変数の分散

確率変数$X$の分散$V[X]$が「分散の本質」と異なる点は「平均」という言葉が「期待値」という言葉に置き換わっている点である。

ここで、期待値と平均の関係を整理しておこう。
参考サイト[6]によれば、期待値とは

期待値とはある試行を行ったとき,その結果として得られる数値の平均値のことである

だそうだ。やはり期待値とは平均値のことなのだから、これで分散の説明もついたと締めくくるのはよくない。

確率変数が母集団や標本と根本的に違うのは、「まだそれぞれの値が定まっていない」という点だ。

例えば歪みのないサイコロの目の期待値は、1~6の平均だから3.5となる。「この3.5が、サイコロを振った結果出てくる数値の平均値だ」というのも納得がいくだろう。
しかし、実際に1回振ってみると、3.5は絶対に出てこない。(1~6の「整数」ではないからだ。)
よって、この1回の結果の平均値を求めても(単に1で割るだけだから、結果そのものとなる)、期待値には絶対に一致しない。

どういうことなのだろうか。

3-3-1. 確率変数の期待値と多世界解釈

※ この項で説明する考え方は僕なりに考えた独自の説明方法で、出展や根拠があるわけではないです。

これを説明するために、とても変な考え方をしてみる。(量子力学の「多世界解釈」を参考にした。)
サイコロを振った瞬間、「この世が6つに分かれる」のだ。本当にそうなのかどうかは興味がない。そう考えてみるのだ。そして、それらの世界では、サイコロの目だけが互いに異なり、それ以外は全く同じだ。
この世界の内1つだけが「この世」であり、それ以外の5つは「パラレルワールド」または「あの世」である。
この世のサイコロの目と、あの世5つのサイコロの目をそれぞれ確認し、それらの平均値をとると、必ず3.5になる。
期待値をいうときの平均値とは、こういう意味での平均値なのだ。

どういうことか。
「サイコロを振った結果がランダム」なのではなく、次のようなことが起こっていると考えているのだ。

  1. サイコロを振る
  2. 世界が目の場合の数(今回は6つ)だけ複製される
  3. サイコロの結果が1になっている世界、2になっている世界、...、6になっている世界が一つずつある※1
  4. どの世界が、自分にとっての「この世」であるかがランダムに選ばれる。今回はサイコロの結果が5だった世界が選ばれたとしよう。
  5. あたかも、「サイコロを振ったら5が出た」ように見える。

ここまでご理解いただいたら、ちょっと変えて、次のように考え直す。(単に、世界の数を$n$倍しただけ)

  1. サイコロを振る
  2. 世界が$n$つだけ複製される
  3. たくさん生成された世界の6つに1つは、サイコロの結果が1になっている。6つに1つは2になっている。...、6つに1つは6になっている。
    つまり、サイコロの結果が1になっている世界、2になっている世界、...、6になっている世界が$\frac{n}{6}$つずつある※2
  4. どの世界が、自分にとっての「この世」であるかがランダムに選ばれる。今回はサイコロの結果が5だった世界が選ばれたとしよう。
  5. あたかも、「サイコロを振ったら5が出た」ように見える。

※1や※2のことは、「サイコロの目がどれも同様に確からしく出る」ことを表している。
6個または$n$個の世界のサイコロの目の平均値をとったものが期待値で、当然ながら3.5である。

でも、「極端に1ばかりがでやすいイカサマ・サイコロ」の場合は
「1の出る世界の割合が大きい」ので、
$n$個の世界のサイコロの目の平均値は3.5より小さくなり、1に近づくだろう。これが「イカサマ・サイコロの目の平均値」と「イカサマ・サイコロの目の期待値」の違いである。

3-3-2. 離散型確率変数の期待値と分散

3-3-1の※2は確率質量関数$f(x)$に対応させることができる。

例えば「$\frac{1}{2}$の確率で1がでて、$\frac{1}{10}$の確率で2~6がでる」イカサマ・サイコロを考えよう。

イカサマ・サイコロの目が1となっている世界は$\frac{1}{2}\times n$個あり、
2~6となっている世界はそれぞれ$\frac{1}{10}\times n$個ずつある。・・①

イカサマ・サイコロの目を表す確率変数を$X$, その値を$x$とすると、確率質量関数$f(x)$ の$n$倍は次のように書ける。

n\times f(x) = \left\{
\begin{array}{ll}
\frac{1}{2}\times n & (x = 1) \\
\frac{1}{10}\times n & (2 \leq x \leq 6)
\end{array}
\right.

この式から、確率質量関数の$n$倍は、引数として渡された値の目が出てくる世界の個数を表しているとわかる。
また、両辺を$n$で割れば

f(x) = \left\{
\begin{array}{ll}
\frac{1}{2}& (x = 1) \\
\frac{1}{10}& (2 \leq x \leq 6)
\end{array}
\right.

この式から分かる通り、確率質量関数は、引数として渡された値の目が出てくる確率を表していることが分かる。

この$f(x)$が「目の出やすさ」を変えてしまうから、期待値が目の平均値3.5と異なってしまう。

期待値を求めてみよう。

①のことから立式すると、

\begin{align}
期待値 & = n個の世界のサイコロの目の平均値 \\
& = 
\frac{
1 \times \frac{1}{2} \times n + 
2 \times \frac{1}{10} \times n +
3 \times \frac{1}{10} \times n + 
4 \times \frac{1}{10} \times n + 
5 \times \frac{1}{10} \times n + 
6 \times \frac{1}{10} \times n 
}{n} \\
& =
1 \times \frac{1}{2} + 
2 \times \frac{1}{10} +
3 \times \frac{1}{10} + 
4 \times \frac{1}{10} + 
5 \times \frac{1}{10} + 
6 \times \frac{1}{10} 

\end{align}

となる。
一般に、期待値$E(X)$は「変数の値と、その値になる確率の積」の総和

E(X)=\sum_{i} x_i\times f(x_i)

で求められる。

では分散はどうなるか。
確率変数の値が決まることを、何らかの母集団から標本を抽出してくることみなせば、
標本の分散の式

s^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2

を基にして考えればよさそうだ。
「抽出してきた結果が既に記録されていて、それらの値が互いにどれだけばらついているか」を言うのであればこのままでよいが、
実際には「どのくらいばらつきそうか」を「前もって」言いたいので、平均値$\overline{x}$の代わりに期待値$E(X)$を使う。
そして、各値の出やすさの違いを考慮するために、$\frac{1}{n}$は確率質量関数$f(x_i)$で置き換える。

したがって、次のようになる。

V(X) = \sum_{i=1}^{n}(x_i-E(X))^2f(x_i)

3-3-3. 連続型確率変数の分散

連続型確率変数は、離散型確率変数が限りなく細かくなったようなものである。
したがって、

V(X) = \lim_{n→∞} \sum_{i=1}^{n}(x_i-E(X))^2f(x_i)

と、まずおいてみよう。

これでよいかと言えば、ダメである。
連続型なのだから、$x_i$のように「何番目の"x"」というのが原理的に言えない。
そこで、次のように置きなおす。

  • $x_1$を$x$の定義域最小値に対応させる
  • $x_n$を$x$の定義域最大値に対応させる
  • 一般に$x_i-x_{i-1}$は0に限りなく近い正の数と考える

こうすると、$x_1$から$x_n$までが定義域を限りなく細かく区切っていて、かつ定義域全体に対応することになる。
区分求積法の考え方より、これは定義域全体の積分とみなせる。
したがって、

\begin{align}
V(X) & = \lim_{n→∞} \sum_{i=1}^{n}(x_i-E(X))^2f(x_i) \\
& = \int_{xの定義域}(x-E(X))^2f(x) {\rm d}x 
\end{align}

となる。実際これで問題ない。
ただ、「$x$の定義域」について突っ込まれるのが面倒くさい場合は、$\int_{xの定義域の外}  f(x){\rm d}x$が必ず0になるため、定義域外を積分領域に含めても積分結果は変わらないということを利用して

V(X) = \int_{-∞}^{∞}(x-E(X))^2f(x) {\rm d}x  

と書くことが多い。この書き方のほうがよく見かける。

以上の議論により、確率変数の分散が、「平均値の代わりに期待値を用いた分散」であり、「期待値を無理矢理平均値と関連付けると、『世界がたくさんある』というおかしな考え方をする必要性がでてくる」ということが分かった。

3-4. 不偏分散

不偏分散は、単に標本分散の$\frac{n}{n-1}$倍である。こうすることで母分散が推定できるらしい。
標本分散が

s^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2

であるのに対し、不偏分散は

\hat{σ}^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2

となることから「不偏分散は標本分散の分母を1だけ小さくしたもの」
と説明されることがとても多い。
が、筆者は前者のように考えるほうが理にかなっていると思う。
その方が、 不偏分散は「分散ではなく、(標本)分散のナントカ倍」「分散ではなく、(母)分散の推定値」 であるということが分かりやすいではないか。
(実際、「分散の本質」を思い出せば、「分散のナントカ倍もまた分散」というのが如何に変な主張かすぐにわかるだろう。平均とのギャップの2乗を平均することでバラつき具合を定量化したのが分散なのに、それをナントカ倍すれば、バラつき具合について嘘の報告をすることになる。その嘘が、別の集団における分散を推定するというだけであり、本当の分散ではない。[7])

では、何故標本分散の$\frac{n}{n-1}$倍で母分散が推定できるのだろうか。
第1章にも書いた通り、「標本をまだとっていない」段階では、標本分散は変数だ。
「変数(標本分散)のナントカ倍が定数(母分散)になる」というのは変だろう。
実際には、
「標本分散の期待値」(これを「標本分散の平均」と言ったりするからややこしい)の$\frac{n}{n-1}$倍が母分散と一致するのである。

このことについては3-4-1で解説する。

3-4-1. 不偏分散の導出―母分散-標本分散=標本平均の分散

参考:[8]
サイコロを3回振ることを考えよう。
1回目の目を$x_1$、2回目の目を$x_2$、3回目の目を$x_3$とする。
(標本)分散$s^2$は「平均との差の2乗の平均」だった。よって、

s^2=\frac{1}{3}
\biggl\{
\Bigl(
x_1-\frac{x_1+x_2+x_3}{3}
\Bigr)^2
+
\Bigl(
x_2-\frac{x_1+x_2+x_3}{3}
\Bigr)^2
+
\Bigl(
x_3-\frac{x_1+x_2+x_3}{3}
\Bigr)^2
\biggl\}

となる。これを格好つけて書くと

\begin{align}
s^2 & = \frac{1}{3}{\sum^{3}_{i=1}\Bigl({x_i-\frac{1}{3}\sum^{3}_{j=1}x_j}\Bigr)^2} \\
& = \frac{1}{3}{\sum^{3}_{i=1}\Bigl\{\frac{1}{3}\bigl({3x_i-\sum^{3}_{j=1}x_j}\bigr)\Bigr\}^2} \\
& = \frac{1}{27}{\sum^{3}_{i=1}\bigl({3x_i-\sum^{3}_{j=1}x_j}\bigr)^2}
\end{align}

となる。
一般に、$n$個のデータを持つ標本の分散は

\frac{1}{n^3}{\sum^{n}_{i=1}\bigl({nx_i-\sum^{n}_{j=1}x_j}\bigr)^2}

で求められる。

ところで、標本分散$s^2$もまた、離散型確率変数$s^2$とみなすことができる。

サイコロの例では、離散型確率変数$s^2$の期待値$E(s^2)$は

\begin{align}
    & E 
    \Biggl(
        \frac{1}{3}
        {
            \sum^{3}_{i=1}
            \Bigl(
            {
                x_i
                -
                % 標本平均
                \frac{1}{3}
                \sum^{3}_{j=1}
                x_j 
                % 標本平均ここまで
            }
            \Bigr)^2
        }
    \Biggl) \\
    &\space\space\space\space\space\space\space\space
        \frac{1}{3}
        \sum^{3}_{j=1}
        x_j
        は標本平均\\
    =
    & E 
    \Biggl(
        \frac{1}{3}
        {
            \sum^{3}_{i=1}
            \biggl(
            {
                (
                    x_i
                    -
                    μ
                )
                -
                \Bigl(
                    \frac{1}{3}
                    \sum^{3}_{j=1}
                    x_j 
                    -
                    μ
                \Bigr)
            }
            \biggr)^2
        }
    \Biggl) \\
    &\space\space\space\space\space\space\space\space
        μ
        は母平均\\
    =
    & E 
    \Biggl(
        \frac{1}{3}
        {
            \sum^{3}_{i=1}
            \biggl(
            {
                (
                    x_i
                    -
                    μ
                )^2
                -
                2
                (
                    x_i
                    -
                    μ
                )
                \Bigl(
                    \frac{1}{3}
                    \sum^{3}_{j=1}
                    x_j 
                    -
                    μ
                \Bigr)
                +
                \Bigl(
                    \frac{1}{3}
                    \sum^{3}_{j=1}
                    x_j 
                    -
                    μ
                \Bigr)^2
            }
            \biggr)
        }
    \Biggl) \\
    =
    & \frac{E}{3} 
    \Biggl(

            \sum^{3}_{i=1}

            {
                (
                    x_i
                    -
                    μ
                )^2
                -
                2
            }
                \Bigl(
                    \frac{1}{3}
                    \sum^{3}_{j=1}
                    x_j 
                    -
                    μ
                \Bigr)
                \sum^{3}_{i=1}
                (
                    x_i
                    -
                    μ
                )
                +
                3\Bigl(
                    \frac{1}{3}
                    \sum^{3}_{j=1}
                    x_j 
                    -
                    μ
                \Bigr)^2
    \Biggl) \\

    =
    & \frac{E}{3} 
    \Biggl(

            \sum^{3}_{i=1}

            {
                (
                    x_i
                    -
                    μ
                )^2
            }
                -
                2
                \Bigl(
                    \frac{1}{3}
                    \sum^{3}_{j=1}
                    x_j 
                    -
                    μ
                \Bigr)
                3
                \Bigl(
                    \frac{1}{3}
                    \sum^{3}_{i=1}
                    x_i
                    -μ
                \Bigl)
                +
                3\Bigl(
                    \frac{1}{3}
                    \sum^{3}_{j=1}
                    x_j 
                    -
                    μ
                \Bigr)^2
    \Biggl) \\

    =
    & \frac{E}{3} 
    \Biggl(

            \sum^{3}_{i=1}

            {
                (
                    x_i
                    -
                    μ
                )^2
            }
                -
                6

                \Bigl(
                    \frac{1}{3}
                    \sum^{3}_{j=1}
                    x_j 
                    -
                    μ
                \Bigr)^2
                +
                3\Bigl(
                    \frac{1}{3}
                    \sum^{3}_{j=1}
                    x_j 
                    -
                    μ
                \Bigr)^2
    \Biggl) \\

    =
    & \frac{E}{3} 
    \Biggl(

            \sum^{3}_{i=1}

            {
                (
                    x_i
                    -
                    μ
                )^2
            }
                -
                3

                \Bigl(
                    \frac{1}{3}
                    \sum^{3}_{j=1}
                    x_j 
                    -
                    μ
                \Bigr)^2

    \Biggl) \\
    =
    & E
    \Biggl(
        \frac{1}{3}
            \sum^{3}_{i=1}

            {
                (
                    x_i
                    -
                    μ
                )^2
            }
    \Biggr)
    -
    E
    \Biggl(
        \Bigl(
                    \frac{1}{3}
                    \sum^{3}_{j=1}

                    x_j 
                    -
                    μ
        \Bigr)^2
    \Biggr) \\
    &\space\space\space\space\space\space\space\space
        第1項は「母平均との差の2乗の平均」の期待値つまり母分散の推定値\hat{σ}^2 \\
    =
    & \hat{σ}^2
    -
    E
    \Biggl(
        \Bigl(
                    \frac{1}{3}
                    \sum^{3}_{j=1}

                    x_j 
                    -
                    μ
        \Bigr)^2
    \Biggr) \\
    =
    & \hat{σ}^2
    -
    (標本平均と母平均の差の2乗の期待値) \\
    =
    & \hat{σ}^2
    -
    (標本平均の分散の期待値)
\end{align}

となる。
一般に、$n$個のデータを持つ標本の分散の期待値$E(s^2)$は

    E(s^2)=\hat{σ}^2
    -
    (標本平均の分散の期待値)

で求められる。

この事実は標本分散(の期待値)と母分散(の推定値)に生じるギャップの正体は、標本平均のばらつき(の期待値)そのものである
ということを示している。

第4章にも示すが、標本平均の分散の期待値は

\frac{1}{n}σ^2

である。
したがって、

\begin{align}
    E(s^2)&=\hat{σ}^2
    -
    \frac{1}{n}σ^2 \\
&\space\space\space\space
σ^2を\hat{σ}^2とみなす(本物を偽物とみなすのだから問題ない) \\
E(s^2)&=\frac{n-1}{n}\hat{σ}^2 \\
&\space\space\space\space
右辺はどうせ推定値なので、左辺で「期待値」と示す必要もない \\
s^2&=\frac{n-1}{n}\hat{σ}^2 \\
\hat{σ}^2&=\frac{n}{n-1}s^2

\end{align}

3-5. 分散を求めるもう一つの公式

分散は「2乗の平均 - 平均の2乗」でも求めることができる。
証明しよう。

\begin{align}
分散 &= \frac{\sum(値-平均)^2}{データの個数} \\
&= \frac{\sum(値^2-2(値)(平均)+(平均)^2)}{データの個数} \\
&= \frac{\sum値^2-2(平均)\sum値+(データの個数)(平均)^2}{データの個数} \\
&= \frac{\sum値^2}{データの個数} -2(平均)\frac{\sum値}{データの個数}+(平均)^2\\
&= \frac{\sum値^2}{データの個数} -2(平均)^2+(平均)^2\\
&= \frac{\sum値^2}{データの個数} -(平均)^2\\
\end{align}

qed

3-6. 標本分散の平均

サイコロを3回振る例で考えよう。
$i$回目の目を$x_i$とすると標本分散は3-4-1より

\begin{align}
s^2 = \frac{1}{27}{\sum^{3}_{i=1}\bigl({3x_i-\sum^{3}_{j=1}x_j}\bigr)^2}
\end{align}

であるから、その平均は、

\frac{1}{6^3}
\sum_
{
    \begin{align}
        \forall i, 1 \leq x_i \leq 6
    \end{align}
}
\Bigl(
    \frac{1}{27}{\sum^{3}_{i=1}\bigl({3x_i-\sum^{3}_{j=1}x_j}\bigr)^2}
\Bigr)

であるが、これを計算するのは大変そうだ。

そこで3-5で証明した公式を使うのがよい。

\begin{align}
&\frac{1}{6^3}
\sum_
{
        \forall i, 1 \leq x_i \leq 6
}
\Bigl(
2乗の平均-平均の2乗\Bigr
) \\
= & \frac{1}{6^3}
\sum_
{
        \forall i, 1 \leq x_i \leq 6
}
\biggl(
    \frac{1}{3}
        (
            x_1^2+x_2^2+x_3^2    
        )
        -
        \Bigl(
            \frac{1}{3}
            (
                x_1+x_2+x_3
            )
        \Bigr)^2
\biggr) \\
= & \frac{1}{6^3}
\sum_
{
        \forall i, 1 \leq x_i \leq 6
}
\biggl(
    \frac{3}{9}
        (
            x_1^2+x_2^2+x_3^2    
        )
        -
        \frac{1}{9}
        \Bigl(
            x_1^2+x_2^2+x_3^2
            +2(x_1x_2+x_2x_3+x_3x_1)
        \Bigr)
\biggr) \\
= & \frac{1}{6^3}
\sum_
{
        \forall i, 1 \leq x_i \leq 6
}
\biggl(
    \frac{2}{9}
        (
            x_1^2+x_2^2+x_3^2    
        )
        -
        \frac{2}{9}
        (
            x_1x_2+x_2x_3+x_3x_1
        )
\biggr) \\
= & \frac{1}{6^3}\frac{2}{9}
\sum_
{
        \forall i, 1 \leq x_i \leq 6
}
\bigl(


            x_1^2+x_2^2+x_3^2    
        -
        (
            x_1x_2+x_2x_3+x_3x_1
        )
\bigr) \\
\end{align}

ここで、

\sum_
{
        1 \leq x_i \leq 6
}x_1^2
=
\sum_
{
        1 \leq x_i \leq 6
}x_2^2
=
\sum_
{
        1 \leq x_i \leq 6
}x_3^2
=
(1^2+2^2+...+6^2)6^2=3276 

である。
最後に$6^2$をかけるのを忘れてはならない。
例えば$\sum_
{
1 \leq x_i \leq 6
}x_1^2$は$x_1$の目の総和をとった後、$x_2$の場合の数6と$x_3$の場合の数6を考慮しなければならない。
積の法則より$6^2$をかければよいとわかるわけだ。
また

\begin{align}
&\sum
x_2x_3
\\=
&\sum
x_3x_1
\\=
&\sum
x_1x_2
\\=
&\bigl(1(1+2+...+6)+2(1+2+...+6)+...+6(1+2+...+6)\bigr)6
\\=
&\bigl((1+2+3+4+5+6)^2\bigr)6
\\=
&441\times6
\\=
&2646
\end{align}

より、

\begin{align}
& \frac{1}{6^3}\frac{2}{9}
\sum_
{
        \forall i, 1 \leq x_i \leq 6
}
\bigl(


            x_1^2+x_2^2+x_3^2    
        -
        (
            x_1x_2+x_2x_3+x_3x_1
        )
\bigr) \\
=& \frac{1}{6^3}\frac{2}{9}3

\bigl(


           3276    
        -
        2646
\bigr) \\
=& \frac{1}{6^2}\frac{1}{9}

\bigl(630\bigr) \\
=1.944...
\end{align}

これがサイコロを3回振った場合の標本分散の平均である。

サイコロを$n(\geq2)$回振った場合の標本分散は次のように求められる。

\begin{align}
&
    \frac{1}{6^n}
    \sum
    {
        \biggl(
            \frac{1}{n}
            \sum^{n}_{i=1}x_i^2
            -
            \Bigl(
                \frac{1}{n}
                \sum^{n}_{i=1}x_i
            \Bigr)^2
        \biggr)
    }\\
=
&
    \frac{1}{6^n}
    \sum
    {
        \biggl(
            \frac{n}{n^2}
            \sum^{n}_{i=1}x_i^2
            -
            \frac{1}{n^2}
            \Bigl(
                \sum^{n}_{i=1}x_i^2
                +
                2
                \sum_{i<j}x_ix_j
            \Bigr)
        \biggr)
    }\\    
=
&
    \frac{1}{6^nn^2}
    \sum
    {
        \biggl(
            (n-1)
            \sum^{n}_{i=1}x_i^2
            -
            2
                \sum_{i<j}x_ix_j
        \biggr)
    }\\   
=
&
    \frac{1}{6^nn^2}

    {
        \biggl(
            6^{n-1}n(n-1)
            \sum^{6}_{x_i=1}x_i^2
            -
            6^{n-2}2 {}_n C_2
                \sum_{i,j}x_ix_j
        \biggr)
    }\\   
=
&
    \frac{1}{36n^2}

    {
        \biggl(
            6n(n-1)
            \sum^{6}_{x_i=1}x_i^2
            -
            2 {}_n C_2
                \sum_{i<j}x_ix_j
        \biggr)
    }\\   
=
&
    \frac{1}{18n^2}

    {
        \biggl(
            3n(n-1)
            \sum^{6}_{x_i=1}x_i^2
            -
             {}_n C_2
                \sum_{i<j}x_ix_j
        \biggr)
    }\\   
=
&
    \frac{1}{18n^2}

    {
        \biggl(
            3n(n-1)
            \sum^{6}_{x_i=1}x_i^2
            -
             {}_n C_2
                \Bigl( \sum_{x_i=1}^{6}x_i \Bigr)^2
        \biggr)
    }\\   
\end{align}

試行1回の場合の数を$r$とすると、その標本分散の平均は次のように表すことができる。


    \frac{1}{r^2n^2}

    {
        \biggl(
            rn(n-1)
            \sum^{r}_{x_i=1}x_i^2
            -
            2 {}_n C_2
                \sum_{i<j}x_ix_j
        \biggr)
    }\\   

4. 予告

標本(平均|分散)の分散については、気が向いたらまとめます。
いいねが集まると気が向きやすくなります

5.参考、注釈

[1]https://mathwords.net/hyouhonheikin
[2]マスコミ批判で説明してみよう。「母集団をすべての性差別」として、「標本をマスコミによって報道される性差別」と考えよう。(別に性にこだわる必要はない。在日外国人の問題でも喫煙者と非喫煙者の対立構造でもエイジハラスメントの実態でもなんでもよい。)
性差別のデータは、男性差別を正、女性差別を負と置き、酷い差別であればあるほど絶対値が大きくなることを考える。
性差別の母平均を0と置こう。(仮定の話なので反論は受け付けません。気に入らないなら+100にでも-100にでもお好きに置き換えてお読みください)マスコミが女性差別ばかりを取り上げて報道する場合(仮定の(ryは、標本平均は負になるだろう。たったそれだけのことである。(偏向報道は、「社会問題を例えばword2vecのようなアイデアで定量化した時、母平均と標本平均の差の絶対値が大きいことを意味する」と言えるかもしれない。)
[3]https://mathwords.net/hyouhonheikin
[4]https://atarimae.biz/archives/8782
[5]https://stats.biopapyrus.jp/stats/var.html
[6]http://w3e.kanazawa-it.ac.jp/math/category/kakuritu/kakuritu/henkan-tex.cgi?target=/math/category/kakuritu/kakuritu/kitaiti-no-teigi.html
[7]母分散が推定できているのだから分散であることに違いはないだろうというのなら、経費でも同じことを言うのか考えてほしい。A氏の経費がB氏のn/(n-1)倍で推定できるからといって、B氏の経費をn/(n-1)倍にして、A氏の経費として報告したら問題だ。報告時には内訳や理由などの回答を求められるだろうが、「B氏の経費をn/(n-1)倍しました」でよいわけがないだろう。B氏の経費のn/(n-1)倍は誰の経費でもない。ただ単に、その値がA氏の経費を推定するのに役立つというだけである。
[8]https://stats.biopapyrus.jp/stats/var.html および https://bellcurve.jp/statistics/course/14987.html

4
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
4