はじめに
統計検定2級では「正規分布に従う標本」に関する検定の問題がありますが、この辺がどうもややこしい。
「分散既知の時は・・・」「2標本の母平均の差で分散未知で等しいときは・・・」とパターンが多すぎる。。
とうことで、試験直前にサクッと確認するためのチェックシートを作ってみました。
(数式が正しく表示されるのに時間がかかることがあります。。)
使い方
- 白紙の紙を用意する
- チェックシートの各パターンで**"「どんな統計量」が「どんな分布」に従うと言えるか"**を書く
- 答えを確認する
チェックシート
標本数 | 検定対象 | 条件 | No. |
---|---|---|---|
1標本 | 母平均 | 分散既知 | ① |
〃 | 〃 | 分散未知 | ② |
〃 | 母分散 | - | ③ |
2標本 | 2標本の母平均の差 | 分散既知 | ④ |
〃 | 〃 | 分散未知で等しい | ⑤ |
〃 | 〃 | 分散未知で等しくない | ⑥ |
〃 | 〃 | 2標本が対応を持っている時 | ⑦ |
〃 | 2つの母分散の比 | - | ⑧ |
1標本 | 母比率 | - | ⑨ |
2標本 | 母比率の差 | - | ⑩ |
前提
1標本、2標本それぞれの時の前提を確認しておきます。(実践で使うときは対象データが前提を満たせているかの検証から必要になったりします。)
①~③の前提(1標本)
標本$X_1, X_2 , ... , X_n$は独立かつ同一に期待値$\mu$, 分散$\sigma^2$の正規分布に従う。
つまり
$$ X_1, X_2 , ... , X_n \sim N \bigl(\mu,\sigma^2 \bigl) $$
ここで$X$の平均値$\bar{X}$は期待値$\mu$, 分散$\frac{\sigma^2}{n}$の正規分布に従う。
よって
$$ \bar{X} \sim N \Bigl(\mu,\frac{\sigma^2}{n} \Bigl) $$
$\bar{X}$の期待値、分散の求め方
\begin{align}
\bar{X} & = \frac{1}{n} \sum_{i=1}^{n}X_i \\
E[\bar{X}] & = \frac{1}{n} E \biggl[ \sum_{i=1}^{n}X_i \biggl] \\
& = \frac{1}{n} \sum_{i=1}^{n}E[X_i] \\
& = \frac{1}{n} n E[X] \\
& = \mu \\
V[\bar{X}] & = \frac{1}{n^2} V \biggl[ \sum_{i=1}^{n}X_i \biggl] \\
& = \frac{1}{n^2} \sum_{i=1}^{n}V[X_i] \\
& = \frac{1}{n^2} n V[X] \\
& = \frac{\sigma^2}{n} \\
\end{align}
なお、途中計算では以下を利用しています。
「足し算の期待値=期待値の足し算」
「足し算の分散=分散の足し算($X_i$が互いに独立なため)」
④~⑧の前提(2標本時)
標本$X_1, X_2 , ... , X_n$が独立かつ同一に期待値$\mu_x$, 分散$\sigma_x^2$の正規分布に従い、
標本$Y_1, Y_2 , ... , Y_m$が独立かつ同一に期待値$\mu_y$, 分散$\sigma_y^2$の正規分布に従う。
また、$X$と$Y$は独立とする。
つまり
\begin{align}
X_1, X_2 , ... , X_n &\sim N \bigl(\mu_x,\sigma_x^2 \bigl) \\
Y_1, Y_2 , ... , Y_m &\sim N \bigl(\mu_y,\sigma_y^2 \bigl)
\end{align}
また$X,Y$の平均値$\bar{X},\bar{Y}$はそれぞれ以下の正規分布に従う。
\bar{X} \sim N \Bigl(\mu_x,\frac{\sigma_x^2}{n} \Bigl) \\
\bar{Y} \sim N \Bigl(\mu_y,\frac{\sigma_y^2}{m} \Bigl)
ここで$d = \bar{X} - \bar{Y}$を考えると、以下の正規分布に従う。
d = \bar{X} -\bar{Y} \sim N \Bigl(\mu_x -\mu_y, \frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m} \Bigl)
$\bar{X} -\bar{Y}$の期待値、分散の求め方
\begin{align}
E[ \bar{X} -\bar{Y} ] & = E[\bar{X}] - E[\bar{Y}] \\
&= \mu_x -\mu_y \\
V[ \bar{X} -\bar{Y} ] & = E \biggl[ \Bigl\{ \bigl(\bar{X} -\bar{Y} \bigr) - \bigl(E[\bar{X}] - E[\bar{Y}] \bigr) \Bigr\} ^2 \biggr] \\
&= E \biggl[ \Bigl\{ \bigl(\bar{X} -E[\bar{X}] \bigl) - \bigl(\bar{Y} - E[\bar{Y}] \bigl) \Bigr\} ^2 \biggl] \\
&= E \Bigl[ \bigl(\bar{X} -E[\bar{X}] \bigl)^2 \Bigl] + E \Bigl[ \bigl(\bar{Y} - E[\bar{Y}] \bigl)^2 \Bigl]
- 2E \Bigl[ \bigl(\bar{X} -E[\bar{X}] \bigl) \bigl(\bar{Y} - E[\bar{Y}] \bigl) \Bigl] \\
&= V[\bar{X}] + V[\bar{Y}] -2Cov[\bar{X}, \bar{Y}] \\
&= V[\bar{X}] + V[\bar{Y}] \\
&= \frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}
\end{align}
なお、分散の計算では「$X$と$Y$が独立」$\Rightarrow$「共分散$Cov[\bar{X}, \bar{Y}]=0$」を利用して共分散を消しています。
⑨の前提(1標本時)
$X$はパラメータ$(n,p)$の二項分布に従う。なお、$n$は十分に大きいものとする。
$$ X \sim Bin(n,p) $$
ちなみに$X$の期待値と分散は以下である。
\begin{align}
E[X] &= np \\
V[X] &= np(1-p)
\end{align}
⑩の前提(2標本時)
$X$はパラメータ$(n_x,p_x)$の二項分布に従い、$Y$はパラメータ$(n_y,p_y)$の二項分布に従う。なお、$n_x,n_y$は十分に大きいものとする。
\begin{align}
X &\sim Bin(n_x,p_x) \\
Y &\sim Bin(n_y,p_y)
\end{align}
ちなみに$X,Y$の期待値と分散は以下である。
\begin{align}
E[X] &= n_xp_x ,&V[X] &= n_xp_x(1-p_x) \\
E[Y] &= n_yp_y ,&V[Y] &= n_yp_y(1-p_y)
\end{align}
答え
各パターンの**"「こんな統計量」が「こんな分布」に従う"**理由(証明や導出)も簡単に書けるものは書いてみました。長くなりそうなものは別記事にしたいと思います。
①1標本|母平均|分散既知
母分散$\sigma^2$が既知なので、$\bar{X}$を標準化した統計量$z$が標準正規分布に従うことを利用して、母平均$\mu$の検定や区間推定を行う。
$$ z=\frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \sim N(0,1) $$
②1標本|母平均|分散未知
母分散$\sigma^2$が未知なので、代わりに不偏標本分散$U^2$を使用した統計量$t$が自由度$n-1$の$t$分布に従うことを利用して、母平均$\mu$の検定や区間推定を行う。
$$ t=\frac{\bar{X}-\mu}{\sqrt{\frac{U^2}{n}}} \sim t(n-1) $$
上記関係の導出(簡易版)
定理1
$z, \chi^2$がそれぞれ以下の分布に従うとき
$$z \sim N(0,1)$$
$$\chi^2 \sim \chi^2(n-1)$$
以下の統計量$t$は、自由度$n-1$の$t$分布に従う。
$$t = \frac{z}{\sqrt{\frac{\chi^2}{n-1}}} \sim t(n-1)$$
定理2
$$X_1, X_2 , ... , X_n \sim N(\mu,\sigma^2)$$
のとき、不偏標本分散$U^2$を使った以下の統計量は自由度$n-1$の$\chi^2$分布に従う。
$$ \frac{(n-1)U^2}{\sigma^2} \sim \chi^2 (n-1) $$
ただし
$$ U^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 $$
標本$X_1, ... , X_n$に対して、以下に示す統計量$z, \chi^2$を考えると、それぞれ以下の分布に従う。($\chi^2$では定理2を利用)
\begin{align}
z &= \frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \sim N(0,1) \\
\chi^2 &= \frac{(n-1)U^2}{\sigma^2} \sim \chi^2 (n-1)
\end{align}
ここで$z, \chi^2$を組み合わせた統計量$t$を考えると、定理1より自由度$n-1$の$t$分布に従う。
$$ t = \frac{z}{\sqrt{\frac{\chi^2}{n-1}}} \sim t(n-1) $$
ここで$t$をさらに整理すると
\begin{align}
t &= \frac{z}{\sqrt{\frac{\chi^2}{n-1}}} \\
&= \frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \frac{1}{\sqrt{\frac{1}{n-1} \frac{(n-1)U^2}{\sigma^2} }} \\
&= \frac{\bar{X}-\mu}{\sqrt{ \frac{\sigma^2}{n} \frac{1}{n-1} \frac{(n-1)U^2}{\sigma^2} }} \\
&= \frac{\bar{X}-\mu}{\sqrt{ \frac{U^2}{n} }} \\
\end{align}
よって
$$ t=\frac{\bar{X}-\mu}{\sqrt{\frac{U^2}{n}}} \sim t(n-1) $$
③1標本|母分散
不偏標本分散$U^2$と母分散$\sigma^2$を組み合わせた以下の統計量が、自由度$n-1$の$\chi^2$分布に従うことを利用して、母分散$\sigma^2$の検定や区間推定を行う。
$$ \frac{(n-1)U^2}{\sigma^2} \sim \chi^2 (n-1) $$
※上記関係は②の導出過程で定理として使ったもの。
また、不偏標本分散$U^2$は
$$ U^2 = \frac{1}{n-1} \sum_{i=1}^{n}(X_i - \bar{X})^2 $$
なので、上記式を残差平方和$\sum_{i=1}^{n}(X_i - \bar{X})^2$で表記すると以下のようになる。
$$ \frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{\sigma^2} \sim \chi^2 (n-1) $$
④2標本|母平均の差|分散既知
母分散$\sigma_x^2, \sigma_y^2$が既知なので、$d = \bar{X} - \bar{Y}$を標準化した統計量$z$が標準正規分布に従うことを利用して、母平均の差$d$の検定や区間推定を行う。
$$ z=\frac{(\bar{X}-\bar{Y})-(\mu_x-\mu_y)}{\sqrt{\frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}}} \sim N(0,1) $$
※検定で$\mu_x=\mu_y=\mu$を帰無仮説とした場合は以下の形に変形できる。
$$ z=\frac{\bar{X}-\bar{Y}}{\sqrt{\frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}}} \sim N(0,1) $$
⑤2標本|母平均の差|分散未知で等しい
母分散$\sigma_x^2, \sigma_y^2$が未知なので、代わりに不偏標本分散$U_x^2, U_y^2$を使用した統計量$t$が自由度$n+m-2$の$t$分布に従うことを利用して、母平均の差$d = \bar{X} - \bar{Y}$の検定や区間推定を行う。
まず、2つの不偏標本分散$U_x^2, U_y^2$をプールした不偏標本分散$U^2$を求める。
$$ U^2 = \frac{(n-1)U_x^2 + (m-1)U_y^2}{(m-1)+(n-1)} $$
続いてプールした不偏標本分散$U^2$を使って統計量$t$を定義する。
$$ t=\frac{(\bar{X}-\bar{Y})-(\mu_x-\mu_y)}{\sqrt{\frac{U^2}{n} + \frac{U^2}{m}}} \sim t(n+m-2) $$
※検定で$\mu_x=\mu_y=\mu$を帰無仮説とした場合は以下の形に変形できる。
$$ t=\frac{\bar{X}-\bar{Y}}{\sqrt{\frac{U^2}{n} + \frac{U^2}{m}}} \sim t(n+m-2) $$
⑥2標本|母平均の差|分散未知で等しくない
(この場合はややこしくて難しいです。統計検定2級ではほとんど出題されないんじゃないかと思います。)
母分散$\sigma_x^2, \sigma_y^2$が未知なので、代わりに不偏標本分散$U_x^2, U_y^2$を使用した以下の統計量$t$($\mu_x = \mu_y$を仮定)が自由度$f$の$t$分布に従うことを利用して、母平均の差$d = \bar{X} - \bar{Y}$の検定を行う。(ウェルチの検定)
$$ t=\frac{\bar{X}-\bar{Y}}{\sqrt{\frac{U_x^2}{n} + \frac{U_y^2}{m}}} ~ \sim t(f)$$
ここで自由度$f$は以下で定義される値である。
\begin{align}
g_x &= \frac{U_x^2}{n} \\
g_y &= \frac{U_y^2}{m} \\
f &= \frac{(g_x+g_y)^2}{ \frac{g_x^2}{n-1} + \frac{g_y^2}{m-1} }
\end{align}
※$f$が整数でない場合、$t$分布表で補間を行うか最も近い整数を使用する。
⑦2標本|母平均の差|2標本が対応を持っている時
2つの標本が対応を持っているというのは以下のように、$X_i$と$Y_i$が対になっている状態を指すので、
$$ \{X,Y\} = \bigl\{(X_1,Y_1),(X_2,Y_2),...,(X_n,Y_n) \bigr\} $$
各標本のペア間の差$d_i = x_i - y_i$を考えることができ、これらは正規分布の再生性により以下の正規分布に従う。
$$ d_i = x_i - y_i \sim N\bigl(\mu_x - \mu_y, \sigma_x^2 + \sigma_x^2\bigr) $$
よって、$d=\{d_1,...,d_i\}$について考えれば1標本の問題とみなせるため、1標本時の手法を適用すればよい。
⑧2標本|母分散の比
不偏標本分散$U_x^2, U_y^2$と母分散$\sigma_x^2, \sigma_y^2$を組み合わせた以下の統計量$F$が、自由度$(n-1,m-1)$の$F$分布に従うことを利用して、母分散の比の検定や区間推定を行う。
$$ F = \frac{\frac{U_x^2}{\sigma_x^2}}{\frac{U_y^2}{\sigma_y^2}} \sim F(n-1,m-1) $$
※検定で$\sigma_x^2 = \sigma_y^2$を帰無仮説とした場合は以下の形に変形できる。
$$ F = \frac{U_x^2}{U_y^2} \sim F(n-1,m-1) $$
上記関係の導出(簡易版)
定理2(再掲)
$$X_1, X_2 , ... , X_n \sim N(\mu,\sigma^2)$$
のとき、不偏標本分散$U^2$を使った以下の統計量は自由度$n-1$の$\chi^2$分布に従う。
$$ \frac{(n-1)U^2}{\sigma^2} \sim \chi^2 (n-1) $$
ただし
$$ U^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 $$
定理3
$X, Y$がそれぞれ以下の分布に従うとき
$$ X \sim \chi^2(n-1)$$
$$ Y \sim \chi^2(m-1)$$
以下の統計量$F$は、自由度$(n-1,m-1)$の$F$分布に従う。
$$F = \frac{\frac{1}{n-1}X}{\frac{1}{m-1}Y} \sim F(n-1,m-1) $$
$X,Y$それぞれに定理2を適用すると以下の関係を得る。
\begin{align}
\chi_x^2 = \frac{(n-1)U_x^2}{\sigma_x^2} &\sim \chi^2 (n-1)\\
\chi_y^2 = \frac{(m-1)U_y^2}{\sigma_y^2} &\sim \chi^2 (m-1)
\end{align}
ここで$\chi_x^2, \chi_y^2$を組み合わせた以下の統計量$F$を考えると、定理3より自由度$(n-1,m-1)$の$F$分布に従う。
$$ F = \frac{\frac{1}{n-1}\chi_x^2}{\frac{1}{m-1}\chi_y^2} \sim F(n-1,m-1) $$
ここで$F$をさらに整理すると
\begin{align}
F &= \frac{\frac{1}{n-1}\chi_x^2}{\frac{1}{m-1}\chi_y^2} \\
&= \frac{\frac{1}{n-1}\frac{(n-1)U_x^2}{\sigma_x^2}}{\frac{1}{m-1}\frac{(m-1)U_y^2}{\sigma_y^2}} \\
&= \frac{\frac{U_x^2}{\sigma_x^2}}{\frac{U_y^2}{\sigma_y^2}}
\end{align}
よって
$$ F = \frac{\frac{U_x^2}{\sigma_x^2}}{\frac{U_y^2}{\sigma_y^2}} \sim F(n-1,m-1) $$
⑨母比率
標本比率$\hat{p}$を使った以下の統計量$z$が標準正規分布に従うことを利用して、母比率$p$の検定や区間推定を行う。
$$ z = \frac{\hat{p} - p}{\sqrt{ \frac{\hat{p}(1-\hat{p})}{n} }} \sim N(0,1) $$
上記関係の導出
ここで、標本比率$\hat{p}$は$X$を$n$で割ったものなので、
$$ \hat{p} = \frac{X}{n} $$
であり、$\hat{p}$も正規分布に従う。また$\hat{p}$の期待値と分散は以下の様に求まる。
\begin{align}
E\bigl[\hat{p}\bigr] &= E\biggl[\frac{X}{n}\biggr] \\
&= \frac{1}{n} E[X] \\
&= \frac{1}{n} np \\
&= p \\
\\
V\bigl[\hat{p}\bigr] &= V\biggl[\frac{X}{n}\biggr] \\
&= \frac{1}{n^2} V[X] \\
&= \frac{1}{n^2} np(1-p) \\
&= \frac{p(1-p)}{n}
\end{align}
つまり
$$ \hat{p} \sim N\biggl(p,\frac{p(1-p)}{n}\biggr) $$
よって$\hat{p}$を標準化すれば
$$ \frac{\hat{p} - p}{\sqrt{ \frac{p(1-p)}{n} }} \sim N(0,1) $$
が得られる。
いま、$n$が十分大きく大数の法則を適用できるので、$\hat{p}$の分散の母比率$p$を標本比率$\hat{p}$で置き換えると
$$ \frac{\hat{p} - p}{\sqrt{ \frac{\hat{p}(1-\hat{p})}{n} }} \sim N(0,1) $$
となる。(分散を標本比率$\hat{p}$で表すのは検定・区間推定の計算の簡便化のため。)
⑩母比率の差
標本比率$\hat{p_x},\hat{p_y}$を使った以下の統計量$z$が標準正規分布に従うことを利用して、母比率の差$d=p_x-p_y$の検定や区間推定を行う。
$$ z = \frac{(\hat{p_x} - \hat{p_y}) - (p_x - p_y)}{\sqrt{ \frac{\hat{p_x}(1-\hat{p_x})}{n_x} + \frac{\hat{p_y}(1-\hat{p_y})}{n_y} }} \sim N(0,1) $$
※検定で$p_x = p_y$を帰無仮説とした場合は以下の形に変形できる。
$$ z = \frac{\hat{p_x} - \hat{p_y}}{\sqrt{ \frac{\hat{p_x}(1-\hat{p_x})}{n_x} + \frac{\hat{p_y}(1-\hat{p_y})}{n_y} }} \sim N(0,1) $$
上記関係の導出
\begin{align}
\hat{p_x} &\sim N\biggl(p_x,\frac{\hat{p_x}(1-\hat{p_x})}{n_x}\biggr) \\
\hat{p_y} &\sim N\biggl(p_y,\frac{\hat{p_y}(1-\hat{p_y})}{n_y}\biggr)
\end{align}
ここで標本比率の差$\hat{d} = \hat{p_x} - \hat{p_y}$を考えると$\hat{d}$も以下のように正規分布に従う。
$$ \hat{d} = \hat{p_x} - \hat{p_y} \sim N\biggl(p_x - p_y, \frac{\hat{p_x}(1-\hat{p_x})}{n_x} + \frac{\hat{p_y}(1-\hat{p_y})}{n_y} \biggr) $$
よって$\hat{d}$を標準化すれば
$$ z = \frac{(\hat{p_x} - \hat{p_y}) - (p_x - p_y)}{\sqrt{ \frac{\hat{p_x}(1-\hat{p_x})}{n_x} + \frac{\hat{p_y}(1-\hat{p_y})}{n_y} }} \sim N(0,1) $$
が得られる。