こんにちは、sakura__mochiです。
授業で区間推定について習ったのでまとめたいと思います。
区間推定とは
母集団の統計量 $\theta$を次のように範囲で推定することを区間推定と言います。
\theta_1<\theta<\theta_2
この範囲 $[ \theta_1, \theta_2 ]$ を信頼区間、その両端の値 $\theta_1$ と $\theta_2$ を信頼限界と呼びます。
信頼区間は、次の確率が 1 に近い値 $\gamma$ となるように選びます。
P(\theta_1<\theta<\theta_2)=\gamma
この $\gamma$ を信頼水準または信頼度と言います。
ざっくりとしたイメージ
まず前提として、サンプルを集めるのは非常に大変です。たとえば、全国の成人男性のBMIを調査する場合、すべての男性にアンケートを取ることは現実的ではありません。
そのため、限られたサンプルを用いて母集団の性質を推定する必要があります。母集団の統計量としては、平均と分散がよく選ばれます。世の中だいたい正規分布なので、平均と分散が分かれば、分布まで分かってしまいます。
区間推定を行う際には、まず信頼度(例: 95%)を指定します。その結果として得られるのは、統計量が取り得る範囲(信頼区間)です。
パターン別の具体例
区間推定は調べたい統計量と前提によって、パターン分けできます。今回は以下のパターンを紹介します。
母平均の区間推定(母分散"未知")
母分散の区間推定
母比率の区間推定
母平均の区間推定(母分散"未知")
正規母集団$N(\mu, \sigma^2)$から、大きさnの標本を無作為に抽出し、標本平均$\bar{X}$を得たとします。このとき、母分散が未知の場合に、信頼水準$\gamma$で母平均の信頼区間を推定すると、次のように表されます。
\bar{X}-\frac{S}{\sqrt{n-1}}t_1 < \mu <\bar{X}+\frac{S}{\sqrt{n-1}}t_1
ただし、ここで$S$は標本標準偏差、$t_1$は自由度$n-1$に基づくt-分布の臨界値を指します。
ある果物店で販売されている7個の特大サイズのリンゴの重さを測ったところ、下表の結果が得られた。
特大サイズのリンゴ全体を正規母集団と考え、"母平均"の信頼区間を信頼水準95%で推定せよ。
1 | 2 | 3 | 4 | 5 | 6 | 7 | |
---|---|---|---|---|---|---|---|
重さ(g) | 320 | 315 | 325 | 310 | 330 | 305 | 335 |
①標本平均と標本分散を求める
\bar{X} = \frac{320 + 315 + 325 + 310 + 330 + 305 + 335}{7} = 320.0 (g)
S^2 = \frac{1}{7}\sum^{7}_{i=1}(X_i-\bar{X})^2 = 10.80^2 (g^2)
②t値を求める
google sheetで
t.inv(0.975,6)
から2.447を得られる。
※Excelやpythonでも求められる。③信頼区間を求める
320.0-\frac{10.80}{\sqrt{7-1}}\times2.447 < \mu <320.0+\frac{10.80}{\sqrt{7-1}}\times > 2.447
答え
330.01 < \mu < 329.99
母分散の区間推定
標本分散を$S^2$とすると、母分散の信頼区間は信頼水準$\gamma$で次のように推定されます。
\frac{nS^2}{z_2}<\sigma^2<\frac{nS^2}{z_1}
ここで、$z_1$と$z_2$は自由度$n-1$に基づくカイ二乗分布の臨界値を指します。
ある果物店で販売されている7個の特大サイズのリンゴの重さを測ったところ、下表の結果が得られた。
特大サイズのリンゴ全体を正規母集団と考え、"母分散"の信頼区間を信頼水準95%で推定せよ。
1 | 2 | 3 | 4 | 5 | 6 | 7 | |
---|---|---|---|---|---|---|---|
重さ(g) | 320 | 315 | 325 | 310 | 330 | 305 | 335 |
①標本平均と標本分散を求める
\bar{X} = \frac{320 + 315 + 325 + 310 + 330 + 305 + 335}{7} = 320.0 (g)
S^2 = \frac{1}{7}\sum^{7}_{i=1}(X_i-\bar{X})^2 = 10.80^2 (g^2)
②χ2値を求める
google sheetから
- 上側が
chisq.inv(0.975, 6)
=14.449- 下側が
chisq.inv.rt(0.975, 6)
= 1.237を得られる。
③信頼区間を求める
\frac{7 \cdot 10.80^2}{14.449} < \sigma^2 < \frac{7 \cdot 10.80^2}{1.237}
答え
48.45<σ^2<565.73
母比率の区間推定
二項分布$Bin(1,p)$に従う母集団から、大きさnの標本$X_1, \dots, X_n$を無作為に抽出し、標本比率を計算したとします。このとき、母比率pの信頼区間を信頼水準$\gamma$で推定する式は次のようになります:
\bar{X} - z_1 \sqrt{\frac{\bar{X}(1 - \bar{X})}{n}}
< p <
\bar{X} + z_1 \sqrt{\frac{\bar{X}(1 - \bar{X})}{n}}
- 母比率: 母集団において、特定の性質を持つ個体の割合(( p ))
-
標本比率: 標本中に特定の性質を持つ個体の割合$\bar{X}$
例)ある製品を母集団としたときの不良品の割合
ある市の住民の満足度調査を行い、無作為に選んだ500人にアンケートを実施した。
この結果、295人が「満足している」と答えた。
この調査を基に、市全体の満足度の割合を99%の信頼区間で推定せよ。
①下準備
サンプルの満足度割合(標本比率)は
\bar{X} = \frac{295}{500} = 0.59
\text{標準誤差} = \sqrt{\frac{\bar{X}(1 - \bar{X})}{n}} = \sqrt{\frac{0.59 \cdot (1 - 0.59)}{500}} = 0.022
②$z値を計算
google sheetにて
NORM.S.INV(0.995)
=2.576が求められる。③信頼区間を求める
\bar{X} - z_1 \sqrt{\frac{\bar{X}(1 - \bar{X})}{n}} < p < \bar{X} + z_1 \sqrt{\frac{\bar{X}(1 - \bar{X})}{n}}
=0.59 - z_1 \sqrt{\frac{0.59 \cdot (1 - 0.59)}{500}} < p < 0.59 + z_1 \sqrt{\frac{0.59 \cdot (1 - 0.59)}{500}}
= 0.5333 < p < 0.6467
答え
この調査結果を基に、市全体の満足度の割合は 53.33%から64.67%の範囲 にあると99%の信頼水準で推定されます。
補足1: 点推定との関係性
区間推定の比較として、よく点推定が挙げられます。
点推定では最尤法などを使って、統計量を特定値として推定します。
点推定と区間推定の違い(イメージ) |
---|
![]() |
終わり