はじめに
古典的統計学において, 「区間推定」という概念は主に推定*(区間推定)と検定**(仮説検定)*, 回帰分析の3つに登場する. 今回はこれらのうち「推定」を対象として, 2つの母平均の区間推定と母比率の区間推定を確認する.
母平均μの区間推定
母平均の区間推定においてキーワードとなるのが, 「母分散」である. 具体的には, 母分散が既知か未知かで統計量*(z or t)*と統計量が従う分布が変化する. それではまず, 母分散を把握している場合から見ていく.
「母分散既知」の場合
問題設定
今回は, フランス人男性の平均身長$\mu$を信頼区間$95$%で母平均の区間推定する.
前提として, フランス人男性の身長は正規分布に従い, 分散(母分散)$\sigma^2$は$8$であることが分かっている.
いま, 無作為にフランス人男性を$100$人抽出(サンプルサイズ$n$は$100$)した.
ci=0.95
sigma2=8
n=100
data<-rnorm(n, 170, sigma2)
data[1:3]
>>> output:
>>> 175.030134352478
>>> 161.753066647228
>>> 186.263505150257
そして, 平均身長を測ったところ標本平均$\bar{X}$は$169.815270856739$であった.
x_hat<-mean(data)
x_hat
>>> output:
>>> 169.815270856739
母分散が既知の平均値の区間推定では, 統計量zを使う. またこの場合の統計量は, 以下で求められる.
z=\frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}}
そして母平均の区間推定のゴールは, この統計量$z$をもとに信頼区間$95$%で推定を行うため, 以下の不等式を求めることになる.
z_{0.025}<z<z_{0.975}\\
-1.96<\frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}}<1.96\\
\bar{X}-1.96\sqrt{\frac{\sigma^2}{n}}<\mu<\bar{X}+1.96\sqrt{\frac{\sigma^2}{n}}
なお, この時の$z_{0.025}<z<z_{0.975}$を可視化すると以下となる.
# 標準正規分布
curve(dnorm(x, 0, 1), -5, 5, type="l", col="skyblue2", lwd=12, main="z-distribution")
curve(dnorm(x, 0, 1), -1.96, 1.96, type="h", col="orange", lwd=3, add=T)
よって, 上記の母平均$\mu$の下限値および上限値をRで計算する.
mu_lower=x_hat-1.96*sqrt(sigma2/n)
mu_lower
mu_upper=x_hat+1.96*sqrt(sigma2/n)
mu_upper
>>> output:
>>> 169.260899140288
>>> 170.369642573189
よって, 母平均$\mu$は信頼区間$95$%で区間推定すると*(あくまで今回の標本において)*以下となった.
169.260899140288<\mu<170.369642573189
最後に, 母分散既知における母平均の区間推定の一般化した手順をまとめる.
一般化
- 正規分布に従う母集団の母平均$\mu$を区間推定で求めたい
- 母分散$\sigma^2$は既知
- 信頼区間は$95$%に設定
- 母集団からサンプルサイズ$n$個だけ標本を抽出
- 標本平均$\bar{X}$を算出
- 統計量$z$をとする
- $z$分布(標準正規分布)において信頼区間に準ずる$z$の値を不等式の両側とする
- 上記を$\mu$が不等式の中心とし, $z$を構成する既知の変数を代入して下限/上限推定値を計算する
「母分散未知」の場合
問題設定
今回は, フランス人男性の平均身長$\mu$を信頼区間$95$%で母平均の区間推定する.
前提として, フランス人男性の身長は正規分布に従い, 分散(母分散)$\sigma^2$は不明.
いま, 無作為にフランス人男性を$11$人抽出(サンプルサイズ$n$は$11$, 自由度$df$は$10$)した.
ci=0.95
n=11
data<-rnorm(n, 170, 8)
data[1:3]
>>> output:
>>> 172.879740021379
>>> 2.259259823503
>>> 167.639348118159
そして, 平均身長を測ったところ標本平均$\bar{X}$は$168.586245936429$であった.
x_hat<-mean(data)
x_hat
>>> output:
>>> 168.586245936429
母分散が未知の平均値の区間推定では, 統計量$t$を使う. ここで重要なのが統計量$t$の算出に標本不偏分散$U^2$*(unbiased variance)*を使用することである. 具体的に, 統計量$t$と標本不偏分散$U^2$は以下の式で求められる.
t=\frac{\bar{X}-\mu}{\sqrt{\frac{U^2}{n}}}\\
U^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2
そして母平均の区間推定のゴールは, この統計量$t$をもとに信頼区間$95$%で推定を行うため, 以下の不等式を求めることになる. なお, 今回の統計量$t$は, 自由度$df=10$の$t$分布に従う.
t_{0.025(df=10)}<t<t_{0.975(df=10)}\\
-2.228<\frac{\bar{X}-\mu}{\sqrt{\frac{U^2}{n}}}<2.228\\
\bar{X}-2.228\sqrt{\frac{U^2}{n}}<\mu<\bar{X}+2.228\sqrt{\frac{U^2}{n}}
なお, この時の$t_{0.025(df=10)}<t<t_{0.975(df=10)}$を可視化すると以下となる.
# df=10
curve(dt(x, 10), -5, 5, type="l", col="green3", lwd=12, main="t-distribution: degree of freedom")
curve(dt(x, 10), qt(0.025, 10), qt(0.975, 10), type="h", col="orange", lwd=3, add=T)
よって, 上記の母平均$\mu$の下限値および上限値をRで計算する.
mu_lower=x_hat-2.228*sqrt(uv/n)
mu_lower
mu_upper=x_hat+2.228*sqrt(uv/n)
mu_upper
>>> output:
>>> 164.676882042455
>>> 172.495609830404
よって, 母平均$\mu$は信頼区間$95$%で区間推定すると*(あくまで今回の標本において)*以下となった.
164.676882042455<\mu<172.495609830404
最後に, 母分散未知における母平均の区間推定の一般化した手順をまとめる.
一般化
- 正規分布に従う母集団の母平均$\mu$を区間推定で求めたい
- 母分散$\sigma^2$は未知
- 信頼区間は$95$%に設定
- 母集団からサンプルサイズ$n$個だけ標本を抽出
- 標本平均$\bar{X}$と不偏分散$U^2$を算出
- 統計量$t$をとする
- 自由度$n-1$の$t$分布において信頼区間に準ずる$t$の値を不等式の両側とする
- 上記を$\mu$が不等式の中心とし, $t$を構成する既知の変数を代入して下限/上限推定値を計算する
母比率θの区間推定
問題設定
今回は, よくある当たり付きのお菓子で当たりが出る確率$\theta$を信頼区間$95$%で母比率の区間推定する.
前提として, 当たりが出る確率が$\theta$である試行を$n$回行うときに成功する回数を$X$とすると, $X$は二項分布$Binomial(n, \theta)$に従う.
いま, このお菓子を買って当たりか確かめる作業を1000回(試行数$n$は$1000$)繰り返したところ, 当たりが出た回数は16回だった.
ci=0.95
n=1000
data<-rbinom(n, 1, 0.015)
x=sum(data)
x
>>> output:
>>> 16
よって, 標本比率は$\bar{X}$は$0.016$($1.6$%)となる.
x_hat<-mean(data)
x_hat
>>> output:
>>> 0.016
サンプルサイズ$n$が十分に大きい時, 中心極限定理によって二項分布$Binomial(n, \theta)$は正規分布$Normal(n\theta, n\theta(1-\theta))$に近似できる. よって, サンプルサイズが大きい時母比率の区間推定では, 標準正規分布に従う統計量$z$を使う. このとき統計量$z$は, 以下で求められる.
z=\frac{\hat{p}-\theta}{\sqrt{\frac{\theta(1-\theta)}{n}}}
そして母比率の区間推定のゴールは, この統計量$z$をもとに信頼区間$95$%で推定を行うため, 以下の不等式を求めることになる.
z_{0.025}<z<z_{0.975}\\
-1.96<\frac{\hat{p}-\theta}{\sqrt{\frac{\theta(1-\theta)}{n}}}<1.96\\
\hat{p}-1.96\sqrt{\frac{\theta(1-\theta)}{n}}<\theta<\hat{p}+1.96\sqrt{\frac{\theta(1-\theta)}{n}}\\
\hat{p}-1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}<\theta<\hat{p}+1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
上記で注意すべき点として, $n$が十分に大きい時$\hat{p}$は$\theta$の一致推定量とすることができるため, 最後に不等式の両側の$\theta$を$\hat{p}$に置き換えている. また, この時の$z_{0.025}<z<z_{0.975}$を可視化すると以下となる.
# 標準正規分布
curve(dnorm(x, 0, 1), -5, 5, type="l", col="skyblue2", lwd=12, main="z-distribution")
curve(dnorm(x, 0, 1), -1.96, 1.96, type="h", col="orange", lwd=3, add=T)
よって, 上記の母比率$\theta$の下限値および上限値をRで計算する.
mu_lower=p_hat-1.96*sqrt(p_hat*(1-p_hat)/n)
mu_lower
mu_upper=p_hat+1.96*sqrt(p_hat*(1-p_hat)/n)
mu_upper
>>> output:
>>> 0.00822297290733792
>>> 0.0237770270926621
よって, 母比率$\theta$は信頼区間$95$%で区間推定すると*(あくまで今回の標本において)*以下となった.
0.00822297290733792<\theta<0.0237770270926621
最後に, サンプル数が十分大きい時の母比率の区間推定の一般化した手順をまとめる.
一般化
- 二項分布に従う現象の母比率$\theta$を区間推定で求めたい
- 信頼区間は$95$%に設定
- 母集団から試行回数$n$回だけ標本を抽出
- 標本比率$\hat{p}$を算出
- 統計量$z$をとする
- $z$分布(標準正規分布)において信頼区間に準ずる$z$の値を不等式の両側とする
- 上記を$\hat{p}$が不等式の中心とし, $z$を構成する既知の変数を代入して下限/上限推定値を計算する
さいごに
区間推定に使う統計量を覚えるには, 分子に期待値(平均)を, 分母は標準誤差*(SE:standard error)となっていることを念頭に置けばいい. 次回は, 検定(仮説検定)*の区間推定を確認する.