1
1

More than 1 year has passed since last update.

いつどの分布を使うのかをまとめてみた(t分布? カイ二乗分布? F分布? 標準正規分布?)

Last updated at Posted at 2021-08-28

はじめに

統計検定2級では「正規分布に従う標本」に関する検定の問題がありますが、この辺がどうもややこしい。
「分散既知の時は・・・」「2標本の母平均の差で分散未知で等しいときは・・・」とパターンが多すぎる。。
とうことで、試験直前にサクッと確認するためのチェックシートを作ってみました。
(数式が正しく表示されるのに時間がかかることがあります。。)

使い方

  1. 白紙の紙を用意する
  2. チェックシートの各パターンで**"「どんな統計量」が「どんな分布」に従うと言えるか"**を書く
  3. 答えを確認する

チェックシート

標本数 検定対象 条件 No.
1標本 母平均 分散既知
分散未知
母分散 -
2標本 2標本の母平均の差 分散既知
分散未知で等しい
分散未知で等しくない
2標本が対応を持っている時
2つの母分散の比 -
1標本 母比率 -
2標本 母比率の差 -

前提

1標本、2標本それぞれの時の前提を確認しておきます。(実践で使うときは対象データが前提を満たせているかの検証から必要になったりします。)

①~③の前提(1標本)

標本$X_1, X_2 , ... , X_n$は独立かつ同一に期待値$\mu$, 分散$\sigma^2$の正規分布に従う。
つまり

$$ X_1, X_2 , ... , X_n \sim N \bigl(\mu,\sigma^2 \bigl) $$
ここで$X$の平均値$\bar{X}$は期待値$\mu$, 分散$\frac{\sigma^2}{n}$の正規分布に従う。
よって

$$ \bar{X} \sim N \Bigl(\mu,\frac{\sigma^2}{n} \Bigl) $$

$\bar{X}$の期待値、分散の求め方
期待値、分散の定義に従って$\bar{X}$の期待値、分散を計算する
\begin{align}
\bar{X} & = \frac{1}{n} \sum_{i=1}^{n}X_i \\
E[\bar{X}] & = \frac{1}{n} E \biggl[ \sum_{i=1}^{n}X_i \biggl] \\
& = \frac{1}{n} \sum_{i=1}^{n}E[X_i] \\
& = \frac{1}{n} n E[X] \\
& = \mu \\

V[\bar{X}] & = \frac{1}{n^2} V \biggl[ \sum_{i=1}^{n}X_i \biggl] \\
& = \frac{1}{n^2} \sum_{i=1}^{n}V[X_i] \\
& = \frac{1}{n^2} n V[X] \\
& = \frac{\sigma^2}{n} \\
\end{align}

なお、途中計算では以下を利用しています。
「足し算の期待値=期待値の足し算」
「足し算の分散=分散の足し算($X_i$が互いに独立なため)」

④~⑧の前提(2標本時)

標本$X_1, X_2 , ... , X_n$が独立かつ同一に期待値$\mu_x$, 分散$\sigma_x^2$の正規分布に従い、
標本$Y_1, Y_2 , ... , Y_m$が独立かつ同一に期待値$\mu_y$, 分散$\sigma_y^2$の正規分布に従う。
また、$X$と$Y$は独立とする。
つまり

\begin{align}
X_1, X_2 , ... , X_n &\sim N \bigl(\mu_x,\sigma_x^2 \bigl) \\
Y_1, Y_2 , ... , Y_m &\sim N \bigl(\mu_y,\sigma_y^2 \bigl)
\end{align}

また$X,Y$の平均値$\bar{X},\bar{Y}$はそれぞれ以下の正規分布に従う。

\bar{X} \sim N \Bigl(\mu_x,\frac{\sigma_x^2}{n} \Bigl) \\
\bar{Y} \sim N \Bigl(\mu_y,\frac{\sigma_y^2}{m} \Bigl)

ここで$d = \bar{X} - \bar{Y}$を考えると、以下の正規分布に従う。

d = \bar{X} -\bar{Y}  \sim N \Bigl(\mu_x -\mu_y, \frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m} \Bigl)
$\bar{X} -\bar{Y}$の期待値、分散の求め方
期待値、分散の定義に従って$\bar{X} -\bar{Y}$の期待値、分散を計算する
\begin{align}
E[ \bar{X} -\bar{Y} ] & = E[\bar{X}] -  E[\bar{Y}] \\
&= \mu_x -\mu_y \\
V[ \bar{X} -\bar{Y} ] & = E \biggl[ \Bigl\{ \bigl(\bar{X} -\bar{Y} \bigr) - \bigl(E[\bar{X}] -  E[\bar{Y}] \bigr) \Bigr\} ^2 \biggr] \\
&= E \biggl[ \Bigl\{ \bigl(\bar{X} -E[\bar{X}] \bigl) - \bigl(\bar{Y} -  E[\bar{Y}] \bigl) \Bigr\} ^2 \biggl] \\
&= E \Bigl[ \bigl(\bar{X} -E[\bar{X}] \bigl)^2 \Bigl] + E \Bigl[ \bigl(\bar{Y} -  E[\bar{Y}] \bigl)^2 \Bigl] 
- 2E \Bigl[ \bigl(\bar{X} -E[\bar{X}] \bigl) \bigl(\bar{Y} -  E[\bar{Y}] \bigl) \Bigl]  \\
&=  V[\bar{X}] + V[\bar{Y}] -2Cov[\bar{X}, \bar{Y}] \\
&= V[\bar{X}] + V[\bar{Y}] \\
&= \frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}
\end{align}

なお、分散の計算では「$X$と$Y$が独立」$\Rightarrow$「共分散$Cov[\bar{X}, \bar{Y}]=0$」を利用して共分散を消しています。

⑨の前提(1標本時)

$X$はパラメータ$(n,p)$の二項分布に従う。なお、$n$は十分に大きいものとする。
$$ X \sim Bin(n,p) $$
ちなみに$X$の期待値と分散は以下である。

\begin{align}
E[X] &= np \\
V[X] &= np(1-p)
\end{align}

⑩の前提(2標本時)

$X$はパラメータ$(n_x,p_x)$の二項分布に従い、$Y$はパラメータ$(n_y,p_y)$の二項分布に従う。なお、$n_x,n_y$は十分に大きいものとする。

\begin{align}
X &\sim Bin(n_x,p_x) \\
Y &\sim Bin(n_y,p_y)
\end{align}

ちなみに$X,Y$の期待値と分散は以下である。

\begin{align}
E[X] &= n_xp_x ,&V[X] &= n_xp_x(1-p_x) \\
E[Y] &= n_yp_y ,&V[Y] &= n_yp_y(1-p_y)
\end{align}



答え

各パターンの**"「こんな統計量」が「こんな分布」に従う"**理由(証明や導出)も簡単に書けるものは書いてみました。長くなりそうなものは別記事にしたいと思います。

①1標本|母平均|分散既知

母分散$\sigma^2$が既知なので、$\bar{X}$を標準化した統計量$z$が標準正規分布に従うことを利用して、母平均$\mu$の検定や区間推定を行う。

$$ z=\frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \sim N(0,1) $$

②1標本|母平均|分散未知

母分散$\sigma^2$が未知なので、代わりに不偏標本分散$U^2$を使用した統計量$t$が自由度$n-1$の$t$分布に従うことを利用して、母平均$\mu$の検定や区間推定を行う。

$$ t=\frac{\bar{X}-\mu}{\sqrt{\frac{U^2}{n}}} \sim t(n-1) $$

上記関係の導出(簡易版)
以下の2つの定理を利用する。

定理1
$z, \chi^2$がそれぞれ以下の分布に従うとき
$$z \sim N(0,1)$$
$$\chi^2 \sim \chi^2(n-1)$$
以下の統計量$t$は、自由度$n-1$の$t$分布に従う。
$$t = \frac{z}{\sqrt{\frac{\chi^2}{n-1}}} \sim t(n-1)$$

定理2
$$X_1, X_2 , ... , X_n \sim N(\mu,\sigma^2)$$
のとき、不偏標本分散$U^2$を使った以下の統計量は自由度$n-1$の$\chi^2$分布に従う。
$$ \frac{(n-1)U^2}{\sigma^2} \sim \chi^2 (n-1) $$
ただし
$$ U^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 $$

標本$X_1, ... , X_n$に対して、以下に示す統計量$z, \chi^2$を考えると、それぞれ以下の分布に従う。($\chi^2$では定理2を利用)

\begin{align}
z &= \frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \sim N(0,1) \\
\chi^2 &= \frac{(n-1)U^2}{\sigma^2} \sim \chi^2 (n-1)
\end{align}

ここで$z, \chi^2$を組み合わせた統計量$t$を考えると、定理1より自由度$n-1$の$t$分布に従う。
$$ t = \frac{z}{\sqrt{\frac{\chi^2}{n-1}}} \sim t(n-1) $$
ここで$t$をさらに整理すると

\begin{align}
t &= \frac{z}{\sqrt{\frac{\chi^2}{n-1}}} \\
&= \frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \frac{1}{\sqrt{\frac{1}{n-1} \frac{(n-1)U^2}{\sigma^2} }} \\
&= \frac{\bar{X}-\mu}{\sqrt{ \frac{\sigma^2}{n} \frac{1}{n-1} \frac{(n-1)U^2}{\sigma^2} }} \\
&= \frac{\bar{X}-\mu}{\sqrt{ \frac{U^2}{n} }} \\
\end{align}

よって
$$ t=\frac{\bar{X}-\mu}{\sqrt{\frac{U^2}{n}}} \sim t(n-1) $$

③1標本|母分散

不偏標本分散$U^2$と母分散$\sigma^2$を組み合わせた以下の統計量が、自由度$n-1$の$\chi^2$分布に従うことを利用して、母分散$\sigma^2$の検定や区間推定を行う。
$$ \frac{(n-1)U^2}{\sigma^2} \sim \chi^2 (n-1) $$
※上記関係は②の導出過程で定理として使ったもの。
また、不偏標本分散$U^2$は
$$ U^2 = \frac{1}{n-1} \sum_{i=1}^{n}(X_i - \bar{X})^2 $$
なので、上記式を残差平方和$\sum_{i=1}^{n}(X_i - \bar{X})^2$で表記すると以下のようになる。
$$ \frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{\sigma^2} \sim \chi^2 (n-1) $$

④2標本|母平均の差|分散既知

母分散$\sigma_x^2, \sigma_y^2$が既知なので、$d = \bar{X} - \bar{Y}$を標準化した統計量$z$が標準正規分布に従うことを利用して、母平均の差$d$の検定や区間推定を行う。

$$ z=\frac{(\bar{X}-\bar{Y})-(\mu_x-\mu_y)}{\sqrt{\frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}}} \sim N(0,1) $$
※検定で$\mu_x=\mu_y=\mu$を帰無仮説とした場合は以下の形に変形できる。
$$ z=\frac{\bar{X}-\bar{Y}}{\sqrt{\frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}}} \sim N(0,1) $$

⑤2標本|母平均の差|分散未知で等しい

母分散$\sigma_x^2, \sigma_y^2$が未知なので、代わりに不偏標本分散$U_x^2, U_y^2$を使用した統計量$t$が自由度$n+m-2$の$t$分布に従うことを利用して、母平均の差$d = \bar{X} - \bar{Y}$の検定や区間推定を行う。
まず、2つの不偏標本分散$U_x^2, U_y^2$をプールした不偏標本分散$U^2$を求める。
$$ U^2 = \frac{(n-1)U_x^2 + (m-1)U_y^2}{(m-1)+(n-1)} $$
続いてプールした不偏標本分散$U^2$を使って統計量$t$を定義する。
$$ t=\frac{(\bar{X}-\bar{Y})-(\mu_x-\mu_y)}{\sqrt{\frac{U^2}{n} + \frac{U^2}{m}}} \sim t(n+m-2) $$
※検定で$\mu_x=\mu_y=\mu$を帰無仮説とした場合は以下の形に変形できる。
$$ t=\frac{\bar{X}-\bar{Y}}{\sqrt{\frac{U^2}{n} + \frac{U^2}{m}}} \sim t(n+m-2) $$

⑥2標本|母平均の差|分散未知で等しくない

(この場合はややこしくて難しいです。統計検定2級ではほとんど出題されないんじゃないかと思います。)
母分散$\sigma_x^2, \sigma_y^2$が未知なので、代わりに不偏標本分散$U_x^2, U_y^2$を使用した以下の統計量$t$($\mu_x = \mu_y$を仮定)が自由度$f$の$t$分布に従うことを利用して、母平均の差$d = \bar{X} - \bar{Y}$の検定を行う。(ウェルチの検定)
$$ t=\frac{\bar{X}-\bar{Y}}{\sqrt{\frac{U_x^2}{n} + \frac{U_y^2}{m}}} ~ \sim t(f)$$
ここで自由度$f$は以下で定義される値である。

\begin{align}
g_x &= \frac{U_x^2}{n} \\
g_y &= \frac{U_y^2}{m} \\
f &= \frac{(g_x+g_y)^2}{ \frac{g_x^2}{n-1} + \frac{g_y^2}{m-1} }
\end{align}

※$f$が整数でない場合、$t$分布表で補間を行うか最も近い整数を使用する。

⑦2標本|母平均の差|2標本が対応を持っている時

2つの標本が対応を持っているというのは以下のように、$X_i$と$Y_i$が対になっている状態を指すので、
$$ \{X,Y\} = \bigl\{(X_1,Y_1),(X_2,Y_2),...,(X_n,Y_n) \bigr\} $$
各標本のペア間の差$d_i = x_i - y_i$を考えることができ、これらは正規分布の再生性により以下の正規分布に従う。
$$ d_i = x_i - y_i \sim N\bigl(\mu_x - \mu_y, \sigma_x^2 + \sigma_x^2\bigr) $$
よって、$d=\{d_1,...,d_i\}$について考えれば1標本の問題とみなせるため、1標本時の手法を適用すればよい。

⑧2標本|母分散の比

不偏標本分散$U_x^2, U_y^2$と母分散$\sigma_x^2, \sigma_y^2$を組み合わせた以下の統計量$F$が、自由度$(n-1,m-1)$の$F$分布に従うことを利用して、母分散の比の検定や区間推定を行う。
$$ F = \frac{\frac{U_x^2}{\sigma_x^2}}{\frac{U_y^2}{\sigma_y^2}} \sim F(n-1,m-1) $$
※検定で$\sigma_x^2 = \sigma_y^2$を帰無仮説とした場合は以下の形に変形できる。
$$ F = \frac{U_x^2}{U_y^2} \sim F(n-1,m-1) $$

上記関係の導出(簡易版)
以下の2つの定理を利用する。

定理2(再掲)
$$X_1, X_2 , ... , X_n \sim N(\mu,\sigma^2)$$
のとき、不偏標本分散$U^2$を使った以下の統計量は自由度$n-1$の$\chi^2$分布に従う。
$$ \frac{(n-1)U^2}{\sigma^2} \sim \chi^2 (n-1) $$
ただし
$$ U^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 $$

定理3
$X, Y$がそれぞれ以下の分布に従うとき
$$ X \sim \chi^2(n-1)$$
$$ Y \sim \chi^2(m-1)$$
以下の統計量$F$は、自由度$(n-1,m-1)$の$F$分布に従う。
$$F = \frac{\frac{1}{n-1}X}{\frac{1}{m-1}Y} \sim F(n-1,m-1) $$

$X,Y$それぞれに定理2を適用すると以下の関係を得る。

\begin{align}
\chi_x^2 = \frac{(n-1)U_x^2}{\sigma_x^2} &\sim \chi^2 (n-1)\\
\chi_y^2 = \frac{(m-1)U_y^2}{\sigma_y^2} &\sim \chi^2 (m-1)
\end{align}

ここで$\chi_x^2, \chi_y^2$を組み合わせた以下の統計量$F$を考えると、定理3より自由度$(n-1,m-1)$の$F$分布に従う。
$$ F = \frac{\frac{1}{n-1}\chi_x^2}{\frac{1}{m-1}\chi_y^2} \sim F(n-1,m-1) $$
ここで$F$をさらに整理すると

\begin{align}
F &= \frac{\frac{1}{n-1}\chi_x^2}{\frac{1}{m-1}\chi_y^2} \\
&= \frac{\frac{1}{n-1}\frac{(n-1)U_x^2}{\sigma_x^2}}{\frac{1}{m-1}\frac{(m-1)U_y^2}{\sigma_y^2}} \\
&= \frac{\frac{U_x^2}{\sigma_x^2}}{\frac{U_y^2}{\sigma_y^2}}
\end{align}

よって
$$ F = \frac{\frac{U_x^2}{\sigma_x^2}}{\frac{U_y^2}{\sigma_y^2}} \sim F(n-1,m-1) $$

⑨母比率

標本比率$\hat{p}$を使った以下の統計量$z$が標準正規分布に従うことを利用して、母比率$p$の検定や区間推定を行う。
$$ z = \frac{\hat{p} - p}{\sqrt{ \frac{\hat{p}(1-\hat{p})}{n} }} \sim N(0,1) $$

上記関係の導出
まず、$n$が十分に大きい場合、中心極限定理により$X$は近似的に正規分布に従う。 $$ X \sim N\bigl(np,np(1-p)\bigr) $$

ここで、標本比率$\hat{p}$は$X$を$n$で割ったものなので、
$$ \hat{p} = \frac{X}{n} $$
であり、$\hat{p}$も正規分布に従う。また$\hat{p}$の期待値と分散は以下の様に求まる。

\begin{align}
E\bigl[\hat{p}\bigr] &= E\biggl[\frac{X}{n}\biggr] \\
&= \frac{1}{n} E[X] \\
&= \frac{1}{n} np \\
&= p \\
\\
V\bigl[\hat{p}\bigr] &= V\biggl[\frac{X}{n}\biggr] \\
&= \frac{1}{n^2} V[X] \\
&= \frac{1}{n^2} np(1-p) \\
&= \frac{p(1-p)}{n}
\end{align}

つまり
$$ \hat{p} \sim N\biggl(p,\frac{p(1-p)}{n}\biggr) $$

よって$\hat{p}$を標準化すれば
$$ \frac{\hat{p} - p}{\sqrt{ \frac{p(1-p)}{n} }} \sim N(0,1) $$
が得られる。

いま、$n$が十分大きく大数の法則を適用できるので、$\hat{p}$の分散の母比率$p$を標本比率$\hat{p}$で置き換えると
$$ \frac{\hat{p} - p}{\sqrt{ \frac{\hat{p}(1-\hat{p})}{n} }} \sim N(0,1) $$
となる。(分散を標本比率$\hat{p}$で表すのは検定・区間推定の計算の簡便化のため。)

⑩母比率の差

標本比率$\hat{p_x},\hat{p_y}$を使った以下の統計量$z$が標準正規分布に従うことを利用して、母比率の差$d=p_x-p_y$の検定や区間推定を行う。
$$ z = \frac{(\hat{p_x} - \hat{p_y}) - (p_x - p_y)}{\sqrt{ \frac{\hat{p_x}(1-\hat{p_x})}{n_x} + \frac{\hat{p_y}(1-\hat{p_y})}{n_y} }} \sim N(0,1) $$
※検定で$p_x = p_y$を帰無仮説とした場合は以下の形に変形できる。
$$ z = \frac{\hat{p_x} - \hat{p_y}}{\sqrt{ \frac{\hat{p_x}(1-\hat{p_x})}{n_x} + \frac{\hat{p_y}(1-\hat{p_y})}{n_y} }} \sim N(0,1) $$

上記関係の導出
⑨の導出過程と同様に$\hat{p_x},\hat{p_y}$は以下の正規分布に従う。
\begin{align}
\hat{p_x} &\sim N\biggl(p_x,\frac{\hat{p_x}(1-\hat{p_x})}{n_x}\biggr) \\
\hat{p_y} &\sim N\biggl(p_y,\frac{\hat{p_y}(1-\hat{p_y})}{n_y}\biggr)
\end{align}

ここで標本比率の差$\hat{d} = \hat{p_x} - \hat{p_y}$を考えると$\hat{d}$も以下のように正規分布に従う。
$$ \hat{d} = \hat{p_x} - \hat{p_y} \sim N\biggl(p_x - p_y, \frac{\hat{p_x}(1-\hat{p_x})}{n_x} + \frac{\hat{p_y}(1-\hat{p_y})}{n_y} \biggr) $$

よって$\hat{d}$を標準化すれば
$$ z = \frac{(\hat{p_x} - \hat{p_y}) - (p_x - p_y)}{\sqrt{ \frac{\hat{p_x}(1-\hat{p_x})}{n_x} + \frac{\hat{p_y}(1-\hat{p_y})}{n_y} }} \sim N(0,1) $$
が得られる。

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1