互いに独立な2つの正規母集団の母平均の差の区間推定
2つの正規母集団$x, y$の標本平均$\bar{x}, \bar{y}$がそれぞれ以下の分布に従うとする。
\displaylines{
\bar{x} \sim N \left( \mu_x, \cfrac{\sigma_x^2}{m} \right) \\
\\
\bar{y} \sim N \left( \mu_y, \cfrac{\sigma_y^2}{n} \right)
}
この時、2つの標本平均の差$d$は以下の分布に従う。
d = \bar{x} - \bar{y} \sim N \left( \mu_x - \mu_y, \cfrac{\sigma_x^2}{m} + \cfrac{\sigma_y^2}{n} \right)
上記の関係を用いて2つの正規母集団の差を区間推定する方法を以下の3パターンを示す。
母分散が既知の場合
母分散が既知の場合の区間推定方法を示す。信頼区間は$95\%$とする。
Z = \cfrac{d - (\mu_x-\mu_y)}{\sqrt{\cfrac{\sigma_x^2}{m}+\cfrac{\sigma_y^2}{n}}} \sim N(0, 1)
Zは標準正規分布に従うため、信頼区間を$95\%$とすると、以下の関係が成立する。
P\left(-Z_{0.025} \leq Z \leq Z_{0.025} \right) = 0.95
よって、区間推定式は以下の様になる。
d - Z_{0.025}\sqrt{\cfrac{\sigma_x^2}{m}+\cfrac{\sigma_y^2}{n}} \leq \mu_x - \mu_y \leq d + Z_{0.025}\sqrt{\cfrac{\sigma_x^2}{m}+\cfrac{\sigma_y^2}{n}}
母分散が未知で等しい場合
母分散が未知で等しい場合は不偏分散$\hat{\sigma_x}^2, \hat{\sigma_y}^2$を用いてプールした分散$\hat{\sigma}^2$を求めて用いる。
\hat{\sigma}^2 = \cfrac{m-1}{(m-1)(n-1)}\hat{\sigma_x}^2 + \cfrac{n-1}{(m-1)(n-1)}\hat{\sigma_y}^2
区間推定方法は以下の様になる。信頼区間は$95\%$とする。
t(m+n-2) = \cfrac{d - (\mu_x-\mu_y)}{\sqrt{\cfrac{1}{m}+\cfrac{1}{n}}\hat{\sigma}} \sim N(0, 1)
$t$は自由度$n+m-2$の$t$分布に従うため、信頼区間を$95\%$とすると、以下の関係が成立する。
P(-t_{0.025}(n+m-2) \leq t \leq t_{0.025}(n+m-2)) = 0.95
よって、区間推定式は以下の様になる。
d - t_{0.025}(m+n-2)\sqrt{\cfrac{1}{m}+\cfrac{1}{n}}\hat{\sigma} \leq \mu_x - \mu_y \leq d + t_{0.025}(m+n-2)\sqrt{\cfrac{1}{m}+\cfrac{1}{n}}\hat{\sigma}
母分散が未知で等しくない場合
区間推定式のみ示す。信頼区間を$95\%$とすると、以下の関係が成立する。
d - t_{0.025}(m+n-2)\sqrt{\frac{\hat{\sigma_1}^2}{m}+\frac{\hat{\sigma_2}^2}{n}} \leq \mu_x - \mu_y \leq d + t_{0.025}(m+n-2)\sqrt{\frac{\hat{\sigma_1}^2}{m}+\frac{\hat{\sigma_2}^2}{n}}
互いに独立な2つの正規母集団の母分散の比の区間推定
2つの正規母集団$x, y$を$\chi^2$分布に従う形に整理すると、母分散$\sigma_x^2, \sigma_y^2$及び不偏分散$\hat{\sigma_x}^2, \hat{\sigma_y}^2$を用いて以下の関係が成立する。
\displaylines{
w_1 = \cfrac{(m-1)\hat{\sigma_x}^2}{\sigma_x^2} \sim \chi^2(m-1)\\
w_2 = \cfrac{(n-1)\hat{\sigma_y}^2}{\sigma_y^2} \sim \chi^2(n-1)
}
2つの$\chi^2$分布$w_1, w_2$について以下が成立する。
F = \cfrac{\cfrac{w_1}{m-1}}{\cfrac{w_2}{n-1}}=\cfrac{\cfrac{\hat{\sigma_x}^2}{\sigma_x^2}}{\cfrac{\hat{\sigma_y}^2}{\sigma_y^2}} \sim F(m-1, n-1)
これは自由度$m-1, n-1$のF分布に従うため、信頼区間を$95\%$とすると、以下の関係が成立する。
P(F_{0.975} \leq F \leq F_{0.025}) = 0.95
よって、区間推定式は以下の様になる。
F_{0.975}\cdot\cfrac{\hat{\sigma_y}^2}{\hat{\sigma_x}^2} \leq \cfrac{\sigma_y^2}{\sigma_x^2} \leq F_{0.025}\cdot\cfrac{\hat{\sigma_y}^2}{\hat{\sigma_x}^2}
互いに独立な2つの正規母集団の母比率の差の区間推定
十分に大きい標本数$n_x, n_y$の標本に対して、$x$人が確率$p_x$、$y$人が確率$p_y$で発生する事象に当てはまったとする。すると、$x$の分布は以下の様に定義できる。これを二項分布という。
\displaylines{
x \sim B(n_x, p_x)\\
y \sim B(n_y, p_y)
}
中心極限定理を用いることにより、$x$の分布を以下の様に正規分布として定義出来る。
\displaylines{
x \sim N(n_xp_x, n_xp_x(1-p_x))\\
y \sim N(n_yp_y, n_yp_y(1-p_y))
}
よって、標本比率は以下の様に定義出来る。
\displaylines{
\hat{p_x} = \frac{x}{n_x} \sim N \left( p_x, \cfrac{p_x(1-p_x)}{n_x} \right)\\
\hat{p_y} = \frac{y}{n_y} \sim N \left( p_y, \cfrac{p_y(1-p_y)}{n_y} \right)
}
また更に標本比率の差は以下の正規分布に従う。
\hat{p_x} - \hat{p_y} = N\left( p_x - p_y, \cfrac{p_x(1-p_x)}{n_x} + \cfrac{p_y(1-p_y)}{n_y} \right)
標本比率の差は、正規分布に従うので、標準正規分布$Z$は以下の様に定義出来る。
Z = \cfrac{(\hat{p_x} - \hat{p_y}) - (p_x - p_y)}{\sqrt{\cfrac{p_x(1-p_x)}{n_x}+\cfrac{p_y(1-p_y)}{n_y}}} \sim N(0, 1)
$Z$は標準正規分布に従うので、信頼区間を$95{\%}$とすると、以下の関係が成立する。
P \left( - Z_{0.25} \leq Z \leq Z_{0.25} \right) = 0.95
よって、区間推定式は以下の様になる。
(\hat{p_x}- \hat{p_y}) - Z_{0.25}\sqrt{\cfrac{p_x(1-p_x)}{n_x}+\cfrac{p_y(1-p_y)}{n_y}} \leq p_x - p_y \leq (\hat{p_x} - \hat{p_y}) + Z_{0.25}\sqrt{\cfrac{p_x(1-p_x)}{n_x}+\cfrac{p_y(1-p_y)}{n_y}}
ここで、大数の法則を用いると以下の関係式が成立する。
\displaylines{
\lim_{n_x \rightarrow \infty} \hat{p_x} \simeq p_x\\
\lim_{n_y \rightarrow \infty} \hat{p_y} \simeq p_y
}
故に、上記の推定式は以下の近似式で書き改められる。
(\hat{p_x}- \hat{p_y}) - Z_{0.25}\sqrt{\cfrac{\hat{p_x}(1-\hat{p_x})}{n_x}+\cfrac{\hat{p_y}(1-\hat{p_y})}{n_y}} \leq p_x - p_y \leq (\hat{p_x} - \hat{p_y}) + Z_{0.25}\sqrt{\cfrac{\hat{p_x}(1-\hat{p_x})}{n_x}+\cfrac{\hat{p_y}(1-\hat{p_y})}{n_y}}