1. まえがき
区間推定(特に母平均)を行う上での勘所をメモとしてまとめようと思う。
2. 95%信頼区間の意味
$×$「推定した区間に95%の割合で母数が含まれる」
→母数は定数なので、その推定区間に含まれるか含まれないかは、一意に決まる。
$〇$「母数の推定を100回行ったとき、95回はその推定区間に母数が含まれる」
3. 母平均の区間推定の注意点
母平均の区間推定を行うと、95%信頼区間は以下の不等式で表現できる、という表記をよく見る気がする(当社比)。
\bar x - 1.96 \frac{\hat\sigma}{\sqrt n} \leq \mu \leq \bar x + 1.96 \frac{\hat\sigma}{\sqrt n}
ここで、$\mu$は母平均で、$\bar x$は標本平均であり、$n$はサンプルサイズである。そして、 $\hat\sigma$は母標準偏差の推定値であり、不偏分散平方根を代入する。
この評価式の成立ために、1つの仮定と1つの近似が要求されることを覚えておく必要がある。
3.1. 仮定:標本平均の分布が正規分布に従う
母平均を上下から評価するのに、標本平均の分布が$N ( \mu , \frac{\sigma ^2}{n} ) $に従うことを利用している。このような分布が実現するためには、母集団が正規分布であるか、もしくは、サンプルサイズ$n$が中心極限定理が成立するぐらい大きい必要がある。
3.2. 近似:母標準偏差は不偏分散の平方根
母標準偏差は、次式のように不偏分散の平方根として点推定して与える。
u = \sqrt \frac{s^2}{n-1} \rightarrow \hat\sigma
※$u$が不偏分散の平方根で、$s^2$が偏差平方和である。
よく見る区間推定の評価式には、これらの仮定と近似があることを注意されたい。
3.3. 補足(t分布について)
母集団分布が正規分布のとき、②の近似を行わずに$t$分布を用いて、母平均を評価する方法がある。
近似を無くすために素直に考えると、もし母標準偏差(もしくは母分散)の情報なしに、標本から計算できる値のみで母平均を評価できたらとは、思わないだろうか。
ここで、$t$分布に関する一つの命題を提示しよう。
「$N(\mu , \sigma ^2)$に従う正規母集団から、大きさ$n$の標本を無作為抽出し、標本平均$\bar X$、標本分散$U^2$をつくると(※確率変数は大文字にしている)、
T=\frac{\bar X -\mu}{\sqrt{\frac{U^2}{n}}}
は自由度$n-1$の$t$分布 $(f_{n-1}(t))$に従う。
ただし、標本分散$U^2$は、
U^2 = \frac { \Sigma \left( X_i - \bar X \right)^2 }{n-1}
不偏分散として定義する」
確率変数$T$の格好を見てもらえばわかるが、これは、標準化した標本平均$Z = (\bar X -\mu) / (\sqrt{\frac{\sigma^2}{n}})$の母分散を不偏分散に置き換えた形をしている。そのため、$T$の形は覚えやすいのではないのだろうか。
母平均と標本平均・分散の関係を示すこの命題を用いることで、母分散が未知のままで区間推定が可能になる。
そして、この区間推定に用いる$t$分布は、その性質として、$f_n(t) = f_n(-t)$という対称性を持ち、その形状が正規分布のような対称な山形になることが知られているので、正規分布をもとにした場合と全く同様の方法で、母平均の区間推定ができる。
95%信頼区間の幅は、自由度に依存するが、例えば $n=10$では、
\bar x - 2.228 \sqrt \frac{得た不偏分散}{10} \leq \mu \leq \bar x + 2.228 \sqrt \frac{得た不偏分散}{10}
と計算される。
$t$分布の表はこちらを参考にしてほしい。
20-2. t分布表 from 統計学の時間
4. 最後に
統計学、変数の命名方法も難しいですよね。
間違い等ビシバシご指摘ください。