0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

2セットのデータ全体の分散

Last updated at Posted at 2021-04-19

はじめに

2014年6月の統計検定2級の問4で出題された2セットのデータ全体の分散

s_z^2 = \frac{1}{2n - 1}\left\{(n-1)(s_x^2 + s_y^2) + \frac{n}{2}(\bar{x} - \bar{y})^2\right\}

を導出します。

2セットのデータ全体の分散の導出

同一の条件において、
1セット目データ{$x_1, ..., x_n$}の平均が$\bar{x}$、分散が$s_x^2$であり、
2セット目データ{$y_1, ..., y_n$}の平均が$\bar{y}$、分散が$s_y^2$となるデータが得られたとする。

全体の平均を$\bar{z} = (\bar{x} + \bar{y}) / 2$であることを用いると、全体の分散$s_z^2$は以下のように表される。

\begin{align}
s_z^2 &= \frac{1}{2n - 1}\left\{\sum_{i=1}^n(x_i - \bar{z})^2 + \sum_{i=1}^n(y_i - \bar{z})^2)\right\}\\
&= \frac{1}{2n - 1}\left\{\sum_{i=1}^n\left((x_i - \bar{x}) + \frac{\bar{x} - \bar{y}}{2}\right)^2 + \sum_{i=1}^n\left((y_i - \bar{y}) + \frac{\bar{y} - \bar{x}}{2}\right)^2\right\}\\
&= \frac{1}{2n - 1}\left\{\sum_{i=1}^n(x_i - \bar{x})^2 + \sum_{i=1}^n(y_i - \bar{y})^2 + \frac{\bar{x} - \bar{y}}{2}\sum_{i=1}^n(x_i - \bar{x}) + \frac{\bar{y} - \bar{x}}{2}\sum_{i=1}^n(y_i - \bar{y}) + n\left(\frac{\bar{x} - \bar{y}}{2}\right)^2 + n\left(\frac{\bar{y} - \bar{x}}{2}\right)^2\right\} \\
&= \frac{1}{2n - 1}\left\{(n-1)s_x^2 + (n-1)s_y^2 + 0 + 0 + 2n\left(\frac{\bar{x} - \bar{y}}{2}\right)^2\right\} \\
&= \frac{1}{2n - 1}\left\{(n-1)(s_x^2 + s_y^2) + \frac{n}{2}(\bar{x} - \bar{y})^2\right\}
\end{align}

どのような問題が実際に出題されたか

ざっくりとした問題の内容は、
「1セット10回のゲームを5人で2セット実施したとき、2セットを通して得点が安定していたのは誰か」
である。

セット 平均 標準偏差
A 1 4.1 2.02
A 2 4.8 1.23
B 1 3.8 2.86
B 2 4.1 1.37
C 1 8.7 0.95
C 2 8.7 0.95
D 1 7.2 1.14
D 2 6.8 1.23
E 1 5.1 0.74
E 2 8.7 1.16

問題の解答

1セット目と2セット目で「平均の差が小さい」ことと「標準偏差が小さい」ことに注目すると、
得点が最も安定しているのは、CさんとEさんに絞られる。

したがって、CさんとEさんのデータ全体の分散$s_C^2$と$s_E^2$を求めて比較する。

Cさんのデータ全体の分散は以下になる。

\begin{align}
s_C^2 &= \frac{1}{2\times10 - 1}\left\{(10 - 1)(0.95^2 + 0.95^2) + \frac{10}{2}(8.7 - 8.7)^2\right\} \\
&= \frac{18}{19}0.95^2 \\
&\approx 0.855
\end{align}

同様にして、Eさんのデータ全体の分散は以下になる。

\begin{align}
s_E^2 &= \frac{1}{19}\left\{9(0.74^2 + 1.16^2) + 5\times0.42^2\right\} \\
&\approx 0.980
\end{align}

したがって、$s_E^2 < s_E^2$より、
2セットを通して得点が最も安定しているのはCさんになる。

参考にしたもの

統計検定2級 公式問題集

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?