母比率の区間推定
母平均の区間推定と同様に、母集団の比率である母比率についても区間推定を行うことができます。
成功確率がpである試行(成功確率pを母比率とする)をn回行うときに成功する回数をXとすると、Xは**二項分布B(n,p)**に従います。二項分布の期待値E[X]はnp、分散V[X]はnp(1-p)となります。
母比率の区間推定には、標本平均の分布を正規分布 N(μ, σ^2/n) に従わせるという概要の「中心極限定理」を用いて、二項分布B(n,p)を正規分布N(np,np(1-p))を近似させます。
Xが二項分布B(n,p)に従う場合、Xを標準化した統計量Zはnが十分に大きいとき以下のように表せ、Z値は標準正規分布に従います。
Z=\frac{X-np}{\sqrt{np(1-p)}}
また母比率pの推定量である**標本比率p^**は、p^=X/nであるためZ値のXに代入すると以下のように変形できます。
Z=\frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}
信頼区間が95%である場合、統計量Zが標準正規分布の95%の面積(確率)の範囲内にあればいいので、下側確率・上側確率が共に2.5%となるZの値を標準正規分布表を使用して求めます。
標準正規分布表より、Z=1.96であることが分かるため以下の式が成り立ちます。
-1.96 \leq \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \leq 1.96
nが十分に大きいときp=p^(母比率=標本比率)となるためpをp^に置き換え、求める母比率pについて変形すると、95%信頼区間の母比率の区間推定は以下のように表されます。
\hat{p}-1.96・\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq p \leq \hat{p}+1.96・\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
一般化して**信頼係数100(1-α)%**の場合、母比率の区間推定式は次のように表せます。
Z(α/2)は下側確率(上側確率)を表し、αの値から標準正規分布表を用いてZの値を求めます。
\hat{p}-Z_{(a/2)}・\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq p \leq \hat{p}+Z_{(a/2)}・\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
カイ2乗分布(χ^2分布)
Z1,Z2,…,Zkが互いに独立で標準正規分布N(0,1)に従う確率変数である時(Zは標準化変量)、次の式から算出される自由度kのχ^2が従う確率分布をカイ2乗分布と言います。
χ^2=Z_1^2+Z_2^2+…+Z_n^2
期待値と分散は以下のように表されます。
E[X]=k
V[X]=2k
カイ2乗分布は自由度が変化することで分布の形状も変化することが特徴です。
標準正規分布N(0,1)に従うカイ2乗分布χ^2は自由度kとなりますが、「正規分布に従う母集団からの無作為標本」は自由度k-1のカイ2乗分布に従い、不偏分散を用いて次のように表せます。
χ^2=\frac{(n-1)・s^2}{σ^2} (s^2は不偏分散)
母分散の区間推定
母分散既知の母平均・母比率の区間推定は標準正規分布表・母分散未知の母平均の区間指定はt分布表を用いるのに対し、母分散の区間推定はカイ2乗分布表を使います。
母集団が母分散σ^2の正規分布N(μ,σ^2)に従う時、抽出された標本のサンプルサイズをn、不偏分散s^2をとすると、カイ2乗χ^2が自由度n-1のカイ2乗分布の次の式に従うことを用いて母分散の信頼区間を計算します(Z・tの標準化された統計量の代わりに使用)。
χ^2=\frac{(n-1)・s^2}{σ^2} (s^2は不偏分散)
信頼区間が95%である場合、χ^2の値がカイ2乗分布の95%の面積(確率)の範囲内にあればいいので、下側確率・上側確率が共に2.5%となるtの値を、自由度n-1に注意しながらカイ2乗分布表を使用して求めます。
またカイ2乗分布表は左右対称ではないので、下側確率・上側確率をそれぞれ読み取る必要があります。
カイ2乗分布表より、上側確率はχ^2=19.02、下側確率はχ^2=2.70であることが分かるため以下の式が成り立ちます。
-1.96 \leq \frac{(n-1)・s^2}{σ^2} \leq 1.96
求める母分散σ^2について変形すると、95%信頼区間の母比率の区間推定は以下のように表されます。母標準偏差σの区間推定をする際は、以下の式より両辺からルートを取ります。
3197.5 \leq σ^2 \leq 22524.3
一般化して**信頼係数100(1-α)%**の場合、母分散の区間推定式は次のように表せます。
χ^2(α/2)(n-1)は下側確率を、χ^2(1-α/2)(n-1)は上側確率を表し、αの値からカイ2乗分布表を用いてσ^2の値を求めます。
\frac{(n-1)・s^2}{χ^2_{(a/2)(n-1)}} \leq σ^2 \leq \frac{(n-1)・s^2}{χ^2_{(1-a/2)(n-1)}}
区間推定のまとめ
① 母平均の区間推定(母分散既知)
▶︎母分散σ^2の値を使い、標準正規分布表を用いて信頼区間を算出する
\bar{x}-Z_{(a/2)}・\frac{σ}{\sqrt{n}} \leq \mu \leq \bar{x}+Z_{(a/2)}・\frac{σ}{\sqrt{n}}
② 母平均の区間推定(母分散未知)
▶︎不偏分散s^2の値を使い、t分布表を用いて信頼区間を算出する
▶︎自由度n-1
\bar{x}-t_{(a/2)(n-1)}・\frac{s}{\sqrt{n}} \leq \mu \leq \bar{x}+t_{(a/2)(n-1)}・\frac{s}{\sqrt{n}}
③ 母比率の区間推定
▶︎**標本比率p^**の値を使い、標準正規分布表を用いて信頼区間を算出する
\hat{p}-Z_{(a/2)}・\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq p \leq \hat{p}+Z_{(a/2)}・\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
④ 母分散の区間推定
▶︎カイ2乗χ^2の値を使い、カイ2乗分布表を用いて信頼区間を算出する
▶︎自由度n-1・下側確率と上側確率が不一致
\frac{(n-1)・s^2}{χ^2_{(a/2)(n-1)}} \leq σ^2 \leq \frac{(n-1)・s^2}{χ^2_{(1-a/2)(n-1)}}