Pythonで「中心極限定理」を確かめてみる
母平均の区間推定で「中心極限定理」を使う
中心極限定理
nが大きいときは、中心極限定理は以下のように言い換えることができます。つまり母分散がわからなくとも不偏分散を計算すればよいわけです。
\begin{align}
\\
&【中心極限定理】\\
\\
&平均値\mu、分散\sigma^2 の分布に従う独立したn個の確率変数X_1、X_2、...、X_n について、\\
&次のように\bar{X}を定義する。\\
\\
&\bar{X} = \frac{X_1 + X_2 + ... + X_n}{n} \qquad (標本平均)\\
&nが大きいとき、この確率変数\bar{X}は平均値\mu、分散\frac{\sigma^2}{n}の正規分布に従う。\\
\\
&またnが大きいときは、母分散\sigma^2は不偏分散s^2で近似できるので、結局\\
&確率変数\bar{X}は平均値\mu、分散\frac{s^2}{n}の正規分布に従うと言える。\\
&ちなみに不偏分散の定義は以下の通り。\\
\\
&s^2 = \frac{(X_1-\bar{X})^2+(X_2-\bar{X})^2+...+(X_n-\bar{X})^2}{n-1} \qquad (不偏分散)\\
&\qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \\
\end{align}
上の定理のポイントは以下の2点です。
- 母分布について正規分布の前提を置く必要がない
- 母分散を知る必要がない
母分布が正規分布で、母分散がわからない場合であれば、t分布が使えます。ここでは母分布が正規分布であるという前提を置かない代わりに、nが大きいという前提条件を置き中心極限定理を使っています。
母平均を区間推定する
正規分布の特徴はよく調べられています。上の「中心極限定理」から、以下のような「信頼度95%」が簡単に導くことができます。
\bar{X} -1.96 \times \frac{s}{\sqrt{n}} \leqq \mu \leqq \bar{X} +1.96 \times \frac{s}{\sqrt{n}} \qquad (信頼度95%の公式)
つまりn個の標本Xをとると標本平均の区間が上記公式のように推定できます。信頼度95%というのは、確率的に次のことを意味しています。n個の標本Xを100回採った時に100個の区間が考えられるが、母平均を実際に含むのは95区間で、残りの5区間は外します。
\begin{align}
&【例題】
\\
&埼玉県の15才の男子1000人を選び標本とします。\\
&標本の平均身長は162.0で、不偏分散は5.8^2でした。\\
&埼玉県の15才の平均身長\mu(母平均)を信頼度95%で推定しましょう。\\
\\
&【解答】\\
&161.64 \leqq \mu \leqq 162.36
&\qquad \qquad \qquad \qquad \qquad \qquad \qquad \\
\end{align}
信頼度95%の公式を、以下のような簡単なPythonプログラムで計算させ、解答が得られます。
import numpy as np
d=1.96*5.8/np.sqrt(1000)
print(162-d)
print(162+d)
# 出力結果
# 161.64051227559204
# 162.35948772440796
今回は以上です。