以下の統計検定2級対策動画で用いられているスライドの一部です。
こんなことを考えたことはありませんか?
-
「一部のアンケート結果から、 全体の支持率 を予測したい」
-
「製造ラインから抜き取った製品の検査結果から、 工場全体の不良品率 を把握したい」
このような「 一部分 」から「 全体 」を推測する考え方が
統計的推定 です。
このセッションで学ぶこと
今回は 統計的推定 の中でも特に重要な 母比率の信頼区間 について学びます。
-
具体例から学ぶ
- 先に具体的な問題を解きながら、考え方の流れを掴みます。
-
一般化と公式のまとめ
- 最後に、定義と公式を確認します。
1. 具体例から学ぶ
工場の不良品率を推定する
【問題】
ある工場で大量に生産された電子部品の中から、 400個 を無作為に抽出して検査したところ、 20個 が不良品でした。
この工場の製品全体の不良品率 $p$ に対する、 信頼係数95%の信頼区間 を求めてください。
ステップ1: 用語の確認と標本比率の計算
まず、問題に出てくる用語を整理します。
- 母集団: 工場で生産された 全 電子部品
- 母比率 $p$: 全 電子部品における不良品の割合( 本当に知りたい値 )
- 標本: 無作為に抽出した 400個 の電子部品
- 標本の大きさ $n$: 標本に含まれる要素の数( $n=400$ )
ステップ1: 用語の確認と標本比率の計算
次に、手元にある標本データ(400個)から不良品の割合を計算します。
これを 標本比率 $\hat{p}$ と呼びます。
- 標本中の不良品の数: $x = 20$
- 標本の大きさ: $n = 400$
$$
\hat{p} = \frac{x}{n} = \frac{20}{400} = 0.05
$$
この標本における不良品率は 5% でした。
ステップ2: 信頼区間の考え方 (1/3)
標本比率の5%は、あくまで「たまたま抽出した400個」から得られた結果です。
もし、もう一度別の400個を抽出したら、結果は少し変わるかもしれません。
ひとつの値だけで全体を推定する( 点推定 )だけでは、その推定がどれほど確からしいのか分かりません。
ステップ2: 信頼区間の考え方 (2/3)
そこで、「母比率 $p$ は、おそらく この範囲からこの範囲の間にある だろう」と、幅を持たせて推定します。
- この手法を 区間推定 と呼びます。
- この推定された範囲を 信頼区間 と呼びます。
ステップ2: 信頼区間の考え方 (3/3)
今回は 信頼係数95% でこの区間を求めます。
この「95%」とは、どういう意味でしょうか?
「同じ手順で標本の抽出と信頼区間の計算を100回繰り返した場合、そのうち 約95回 は、計算された区間が 真の母比率 $p$ を含む」
これは、私たちが算出した一つの信頼区間が、真の母比率を「捉えている」と期待できる度合いを示しています。
信頼区間のイメージ
import numpy as np
import matplotlib.pyplot as plt
# Parameters
p_true = 0.06 # True population proportion
n = 400 # Sample size
n_simulations = 100
confidence_level = 0.95
z = 1.96
# Simulation
plt.figure(figsize=(10, 8))
captured_count = 0
for i in range(n_simulations):
# Generate a sample
sample = np.random.binomial(1, p_true, n)
p_hat = np.mean(sample)
# Calculate confidence interval
se = np.sqrt(p_hat * (1 - p_hat) / n)
ci_lower = p_hat - z * se
ci_upper = p_hat + z * se
# Check if the true proportion is captured
color = 'blue'
if not (ci_lower <= p_true <= ci_upper):
color = 'red'
else:
captured_count += 1
plt.errorbar(x=p_hat, y=i+1, xerr=[[p_hat - ci_lower], [ci_upper - p_hat]], fmt='o', color=color, capsize=3, markersize=4)
plt.axvline(x=p_true, color='green', linestyle='--', label=f'True Proportion (p={p_true})')
plt.title(f'95% Confidence Intervals for {n_simulations} Simulations')
plt.xlabel('Proportion')
plt.ylabel('Simulation Number')
plt.yticks(np.arange(0, n_simulations + 1, 10))
plt.grid(axis='x', linestyle=':')
plt.legend()
plt.show()
ステップ3: 信頼区間の計算 (1/4)
それでは、実際に計算していきましょう。
-
信頼係数95% の場合、統計的に決まった値 $z=1.96$ を使います。
-
計算は、 標本比率 $\hat{p}$ を中心に、ある一定の幅( 誤差の範囲 )を足したり引いたりして行います。
信頼区間 = 標本比率 ± 誤差の範囲
ステップ3: 信頼区間の計算 (2/4)
まず、誤差を計算する基礎となる 標準誤差 を求めます。
$$
\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = \sqrt{\frac{0.05 \times (1-0.05)}{400}}
$$
$$
= \sqrt{\frac{0.0475}{400}} = \sqrt{0.00011875} \approx 0.0109
$$
ステップ3: 信頼区間の計算 (3/4)
次に、標準誤差に $z$ の値を掛けて 誤差の範囲 を求めます。
$$
\text{誤差の範囲} = z \times \text{標準誤差}
$$
$$
\approx 1.96 \times 0.0109 \approx 0.0214
$$
ステップ3: 信頼区間の計算 (4/4)
最後に、この誤差の範囲を標本比率 $0.05$ から足し引きします。
-
信頼下限
$0.05 - 0.0214 = 0.0286$ -
信頼上限
$0.05 + 0.0214 = 0.0714$
【解答】
求められた信頼区間は 0.0286 から 0.0714 となります。
分かりやすくパーセントで表現すると(小数点第1位まで)、
2.9\% \le p \le 7.1\%
結論: この工場の製品全体の不良品率 $p$ は、信頼係数95%で
「 約2.9% から 7.1% の間にある 」と推定されます。
2. 一般化と公式のまとめ
定義のまとめ
これまでに登場した用語を一般化して整理します。
- 母集団: 調査や分析の対象となる すべて の要素の集まり。
- 母比率 $p$: 母集団全体の中で、ある特定の性質を持つ要素が占める割合。
- 標本: 母集団から無作為に選び出された 一部分 の要素の集まり。
- 標本比率 $\hat{p}$: 標本の中で、ある特定の性質を持つ要素が占める割合。
母比率の信頼区間の公式
標本の大きさ $n$ が十分に大きい場合、母比率 $p$ の信頼区間は以下の公式で計算できます。
$$
\hat{p} - z \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \le p \le \hat{p} + z \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
$$
- $\hat{p}$: 標本比率
- $n$: 標本の大きさ
- $z$: 信頼係数によって決まる値
信頼係数と $z$ の値
$z$ の値は、信頼係数に応じて決まります。代表的な値を以下に示します。
| 信頼係数 | $z$ の値 |
|---|---|
| 90% | 1.645 |
| 95% | 1.960 |
| 99% | 2.576 |
今回の例題では、信頼係数95%だったので $z=1.96$ を使用しました。
まとめ
-
母比率の信頼区間 は、標本データから母集団全体の比率を「 範囲 」で推定する手法です。
-
点推定だけでは分からない、推定の「 確からしさ 」を幅で表現します。
-
計算には、 標本比率 $\hat{p}$ 、 標本の大きさ $n$ 、そして 信頼係数に応じた $z$ 値 が必要です。
まとめ (公式と活用)
公式
$$
\hat{p} \pm z \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
$$
活用分野
- 品質管理
- 市場調査
- 世論調査 など
一部分のデータから全体像を科学的に推測する信頼区間の考え方は、非常に幅広い分野で活用されています。
