以下の統計検定2級対策動画で用いられているスライドの一部です。
1. 具体例:部品の平均重量を推定する
ある工場で製造される部品の 本当の平均重量 (母平均) を知りたい!
-
点推定
- 「たぶん 150 gだろう」と 1つの値 で推定する。
- シンプルだが、どれだけ正確かは分からない。
-
区間推定
- 「 たぶん 149.02 gから 150.98 gの間だろう」と 幅 を持たせて推定する。
- この区間を 信頼区間 と呼ぶ。
【例題】
ある工場で製造される部品の重量は、正規分布に従うことが分かっています。過去の実績から、その重量の 母標準偏差 $\sigma$ は 3 gであることが既知です。
この工場で製造された部品から 36 個を無作為に抽出し、それぞれの重量を測定したところ、その 標本平均 $\bar{x}$ は 150 gでした。
この部品の母平均重量 $\mu$ に対する95%信頼区間を求めてください。
解答の方針:信頼区間の考え方
-
95%信頼区間とは?
- 「同じ手順で標本抽出と区間推定を 100 回繰り返した場合、そのうち約 95 回は、計算された区間が 真の母平均 $\mu$ を含む」という意味。
- この 95% を 信頼係数 (信頼度)と呼ぶ。
-
計算の土台となる理論
- 多くの標本平均は、母平均 $\mu$ を中心とした 正規分布 に従う。
- この性質を利用して、母平均 $\mu$ が含まれる確率の高い区間を計算する。
計算のキー:標本平均の「標準化」
標本平均 $\bar{X}$ は、平均 $\mu$、分散 $\frac{\sigma^2}{n}$ の正規分布に従います。
この $\bar{X}$ を以下の式で変換(標準化)すると、
$$
Z = \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}}
$$
この変数 $Z$ は、平均 0、分散 1 の 標準正規分布 $N(0, 1)$ に従います。
この性質が、信頼区間の公式を導く鍵となります。
標準正規分布と95%信頼区間
標準正規分布では、全体の面積の 95% が -1.96 から +1.96 の区間に収まります。
つまり、$Z$ の値がこの区間に入る確率は 95% です。
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
# Data for plotting
x = np.linspace(-4, 4, 1000)
y = norm.pdf(x, 0, 1)
# Create plot
fig, ax = plt.subplots(figsize=(10, 6))
ax.plot(x, y, 'b-', linewidth=2)
# Shade the 95% confidence interval area
x_fill = np.linspace(-1.96, 1.96, 500)
y_fill = norm.pdf(x_fill, 0, 1)
ax.fill_between(x_fill, y_fill, color='blue', alpha=0.3)
# Add text and annotations
ax.set_title('Standard Normal Distribution (N(0, 1))', fontsize=16)
ax.set_xlabel('Z-score', fontsize=12)
ax.set_ylabel('Probability Density', fontsize=12)
ax.grid(True, linestyle='--', alpha=0.6)
ax.text(0, 0.1, '95% of area', horizontalalignment='center', fontsize=14, color='darkblue')
ax.axvline(x=-1.96, color='r', linestyle='--')
ax.axvline(x=1.96, color='r', linestyle='--')
ax.text(-1.96, -0.05, '-1.96', horizontalalignment='center', fontsize=12)
ax.text(1.96, -0.05, '1.96', horizontalalignment='center', fontsize=12)
# Show plot
plt.show()
計算プロセス (1) - 式を立てる
$Z$ が 95% の確率で -1.96 と 1.96 の間に入ることから、以下の不等式が成り立ちます。
$$
-1.96 \le Z \le 1.96
$$
ここに $Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}$ と問題の数値を代入します。
- $\bar{x} = 150$
- $\sigma = 3$
- $n = 36$
$$
-1.96 \le \frac{150 - \mu}{\frac{3}{\sqrt{36}}} \le 1.96
$$
計算プロセス (2) - 不等式を解く
この不等式を、真ん中が $\mu$ だけになるように変形します。
-
分母を計算
$\frac{3}{\sqrt{36}} = \frac{3}{6} = 0.5$ -
各辺に 0.5 を掛ける
$-1.96 \times 0.5 \le 150 - \mu \le 1.96 \times 0.5$
$-0.98 \le 150 - \mu \le 0.98$ -
各辺から 150 を引く
$-150 - 0.98 \le - \mu \le -150 + 0.98$ -
各辺に -1 を掛ける (不等号の向きが逆転)
$150 + 0.98 \ge \mu \ge 150 - 0.98$
結論:95%信頼区間の算出
計算結果を整理すると、母平均 $\mu$ の範囲が求まります。
- 下限値: $150 - 0.98 = 149.02$
- 上限値: $150 + 0.98 = 150.98$
したがって、母平均重量 $\mu$ の 95%信頼区間 は
[149.02, 150.98] g となります。
信頼区間の「幅」は何で決まる? (1)
信頼区間の幅は、$2 \cdot z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$ で決まります。
- 信頼係数 (確からしさ)
- 信頼係数を高くすると、区間は 広くなります 。
- より高い確信を持つためには、より広い範囲をカバーする必要があるためです。
| 信頼係数 | $z_{\alpha/2}$の値 | 区間の幅 |
|---|---|---|
| 95% | 1.96 | narrower |
| 99% | 2.58 | wider |
信頼区間の「幅」は何で決まる? (2)
- 標本の大きさ $n$
- 標本の数を 多く すると、区間は 狭くなります 。
- 情報量が増え、より精密な推定が可能になるためです。
- 母標準偏差 $\sigma$ (データのばらつき)
- 元のデータのばらつきが 大きい と、区間は 広くなります 。
- ばらつきが大きいと、平均値の推定も不確実になるためです。
【一般化】ここまでの内容を整理
ここまでの具体例と解説を踏まえて、
「母平均の信頼区間」 に関する定義や公式を
一般化してまとめます。
用語のまとめ
-
点推定
- 母平均 $\mu$ を「一点」で推定すること。(例: $\bar{x} = 150$)
-
区間推定
- 母平均 $\mu$ が含まれるであろう「区間」を推定すること。
- この区間が 信頼区間 。
-
信頼係数 (信頼度)
- 計算された区間が、本当に母平均 $\mu$ を含んでいる確率。
- $1-\alpha$ で表され、通常は 95% や 99% が使われる。
理論のまとめ
信頼区間の計算は、 標本平均 $\bar{X}$ が従う確率分布 の性質に基づいています。
-
標本平均の分布
- 標本平均 $\bar{X}$ は、平均 $\mu$、分散 $\frac{\sigma^2}{n}$ の 正規分布 に従う。
( 中心極限定理 により、元のデータが正規分布でなくても $n$ が大きければ近似可能)
- 標本平均 $\bar{X}$ は、平均 $\mu$、分散 $\frac{\sigma^2}{n}$ の 正規分布 に従う。
-
標本平均の標準化
- $\bar{X}$ を標準化した変数 $Z$ は、 標準正規分布 $N(0,1)$ に従う。
$$
Z = \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}}
$$
公式のまとめ
$Z$ が標準正規分布に従うことを利用して、母平均 $\mu$ の $100(1-\alpha)$% 信頼区間の公式を導きます。
-
確率の範囲を設定
$P(-z_{\alpha/2} \le Z \le z_{\alpha/2}) = 1 - \alpha$
- 95%信頼区間 ($\alpha=0.05$): $z_{0.025} = 1.96$
- 99%信頼区間 ($\alpha=0.01$): $z_{0.005} = 2.58$
-
$Z$ を代入し、$\mu$ について解く
これにより、以下の公式が得られます。
$$
\bar{x} - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \le \mu \le \bar{x} + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}
$$
最終まとめ
-
信頼区間 は、具体例を通じて理解することで、より直感的に把握できます。
-
計算の根拠は、 標本平均 $\bar{X}$ の分布 が正規分布になる性質です。
-
公式は $\bar{x} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$ とシンプルに覚えられます。
次のステップ
今回は 母分散(母標準偏差)が既知 という特殊なケースでした。
しかし、現実の問題では母分散は 未知 であることがほとんどです。
その場合は、正規分布の代わりに t分布 を用いて信頼区間を推定します。
