はじめに
2014年6月の統計検定2級の問4で出題された2セットのデータ全体の分散
s_z^2 = \frac{1}{2n - 1}\left\{(n-1)(s_x^2 + s_y^2) + \frac{n}{2}(\bar{x} - \bar{y})^2\right\}
を導出します。
2セットのデータ全体の分散の導出
同一の条件において、
1セット目データ{$x_1, ..., x_n$}の平均が$\bar{x}$、分散が$s_x^2$であり、
2セット目データ{$y_1, ..., y_n$}の平均が$\bar{y}$、分散が$s_y^2$となるデータが得られたとする。
全体の平均を$\bar{z} = (\bar{x} + \bar{y}) / 2$であることを用いると、全体の分散$s_z^2$は以下のように表される。
\begin{align}
s_z^2 &= \frac{1}{2n - 1}\left\{\sum_{i=1}^n(x_i - \bar{z})^2 + \sum_{i=1}^n(y_i - \bar{z})^2)\right\}\\
&= \frac{1}{2n - 1}\left\{\sum_{i=1}^n\left((x_i - \bar{x}) + \frac{\bar{x} - \bar{y}}{2}\right)^2 + \sum_{i=1}^n\left((y_i - \bar{y}) + \frac{\bar{y} - \bar{x}}{2}\right)^2\right\}\\
&= \frac{1}{2n - 1}\left\{\sum_{i=1}^n(x_i - \bar{x})^2 + \sum_{i=1}^n(y_i - \bar{y})^2 + \frac{\bar{x} - \bar{y}}{2}\sum_{i=1}^n(x_i - \bar{x}) + \frac{\bar{y} - \bar{x}}{2}\sum_{i=1}^n(y_i - \bar{y}) + n\left(\frac{\bar{x} - \bar{y}}{2}\right)^2 + n\left(\frac{\bar{y} - \bar{x}}{2}\right)^2\right\} \\
&= \frac{1}{2n - 1}\left\{(n-1)s_x^2 + (n-1)s_y^2 + 0 + 0 + 2n\left(\frac{\bar{x} - \bar{y}}{2}\right)^2\right\} \\
&= \frac{1}{2n - 1}\left\{(n-1)(s_x^2 + s_y^2) + \frac{n}{2}(\bar{x} - \bar{y})^2\right\}
\end{align}
どのような問題が実際に出題されたか
ざっくりとした問題の内容は、
「1セット10回のゲームを5人で2セット実施したとき、2セットを通して得点が安定していたのは誰か」
である。
人 | セット | 平均 | 標準偏差 |
---|---|---|---|
A | 1 | 4.1 | 2.02 |
A | 2 | 4.8 | 1.23 |
B | 1 | 3.8 | 2.86 |
B | 2 | 4.1 | 1.37 |
C | 1 | 8.7 | 0.95 |
C | 2 | 8.7 | 0.95 |
D | 1 | 7.2 | 1.14 |
D | 2 | 6.8 | 1.23 |
E | 1 | 5.1 | 0.74 |
E | 2 | 8.7 | 1.16 |
問題の解答
1セット目と2セット目で「平均の差が小さい」ことと「標準偏差が小さい」ことに注目すると、
得点が最も安定しているのは、CさんとEさんに絞られる。
したがって、CさんとEさんのデータ全体の分散$s_C^2$と$s_E^2$を求めて比較する。
Cさんのデータ全体の分散は以下になる。
\begin{align}
s_C^2 &= \frac{1}{2\times10 - 1}\left\{(10 - 1)(0.95^2 + 0.95^2) + \frac{10}{2}(8.7 - 8.7)^2\right\} \\
&= \frac{18}{19}0.95^2 \\
&\approx 0.855
\end{align}
同様にして、Eさんのデータ全体の分散は以下になる。
\begin{align}
s_E^2 &= \frac{1}{19}\left\{9(0.74^2 + 1.16^2) + 5\times0.42^2\right\} \\
&\approx 0.980
\end{align}
したがって、$s_E^2 < s_E^2$より、
2セットを通して得点が最も安定しているのはCさんになる。