以下の統計検定2級対策動画で用いられているスライドの一部です。
今回の目的
手元にある一部のデータ( 標本 )から、調査対象全体の平均値( 母平均 )がどの範囲にあるのかを 推定 したい。
しかし、多くの場合、母集団全体のデータのばらつき具合( 母分散 )は分かっていません。
この記事では、 母分散が未知 の状況で母平均の信頼区間を推定する方法を解説します。
このスライドの流れ
まず、具体的な問題を通して、信頼区間を求めるプロセスを体験します。
その後、そのプロセスを一般化し、定義や公式としてまとめます。
-
ステップ1:具体例で学ぶ
- スマートフォンのバッテリー持続時間の推定
-
ステップ2:一般化と定義
- 計算手順と公式のまとめ
ステップ1
具体例で学ぶ信頼区間の計算
【問題】
スマートフォンのバッテリー持続時間の推定
あるメーカーが、新開発したスマートフォンのバッテリー持続時間を調査しました。
-
調査方法
- 無作為に16台の製品を抽出
-
調査結果
- サンプルサイズ: $n = 16$
- 標本平均: $\bar{x} = 20.5$ 時間
- 不偏分散: $s^2 = 2.25$
この結果から、製品全体のバッテリー持続時間(母平均 $\mu$)の 95%信頼区間 を求めてみましょう。ただし、バッテリー持続時間の母集団は正規分布に従うものとします。
なぜ t分布 が必要になるのか?
この問題の最大のポイントは、 母集団全体の分散(母分散 $\sigma^2$)が未知 である点です。
- 現実の調査では、母分散が分かっているケースは稀です。
- そこで、標本から計算した 不偏分散 $s^2$ を母分散の代わりに使用します。
- しかし、$s^2$ はあくまで 推定値 であり、その 不確かさ を考慮する必要があります。
- この「不確かさ」を統計的に正しく扱うために用いられるのが t分布 です。
t分布適用の前提条件
厳密には、t分布を用いて信頼区間を推定するためには 「母集団が正規分布に従う」 という仮定が必要です。
(※サンプルサイズが大きい場合、中心極限定理によりこの仮定は緩和されます。)
t分布の形状と特徴
t分布は正規分布とよく似た、左右対称の釣鐘型の分布です。
-
正規分布との違い
- t分布は、正規分布よりも 裾が厚い 形状をしています。
- これは、母分散を推定する際の不確かさを反映しており、信頼区間の幅が少し広くなります。
グラフ描画コード(Python)
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm, t
# Parameters
df = 15 # Degrees of freedom for t-distribution
x = np.linspace(-4, 4, 1000)
# Probability density functions
pdf_norm = norm.pdf(x, 0, 1)
pdf_t = t.pdf(x, df)
# Plotting
plt.figure(figsize=(10, 6))
plt.plot(x, pdf_norm, label='Standard Normal Distribution', color='blue', linestyle='--')
plt.plot(x, pdf_t, label=f't-Distribution (df={df})', color='red', linewidth=2)
# Style
plt.title('t-Distribution vs. Standard Normal Distribution')
plt.xlabel('Value')
plt.ylabel('Probability Density')
plt.legend()
plt.grid(True)
plt.show()
解答プロセス (1) 計算の準備
信頼区間を計算するために、必要な値を準備します。
-
不偏標準偏差 ($s$)
- $s = \sqrt{s^2} = \sqrt{2.25} = 1.5$
- **信頼係数と $\alpha$** - 95%信頼区間なので、$1 - \alpha = 0.95 \implies \alpha = 0.05$ - 両側で考えるため、片側確率は $\alpha/2 = 0.025$
- **自由度 ($df$)** - $df = n - 1 = 16 - 1 = 15$
解答プロセス (2) t値の取得
t分布表や統計ソフトウェアを使い、対応するt値を調べます。
-
使う情報
- 自由度: $df = 15$
- 片側確率: $\alpha/2 = 0.025$
-
対応するt値
$$
t(15, 0.025) = 2.131
$$
これは、自由度15のt分布において、上側(または下側)の確率が2.5%となる境界の値を示します。
解答プロセス (3) 信頼区間の計算
準備した値を使って、信頼区間を計算します。
-
標準誤差を計算する
- 標本平均のばらつきの大きさを示します。
$$
\frac{s}{\sqrt{n}} = \frac{1.5}{\sqrt{16}} = \frac{1.5}{4} = 0.375
$$
- 標本平均のばらつきの大きさを示します。
-
誤差の範囲を計算する
- 標準誤差にt値を掛け合わせます。
$$
t \times (\text{標準誤差}) = 2.131 \times 0.375 \approx 0.799
$$
- 標準誤差にt値を掛け合わせます。
【問題の結論】
最後に、標本平均から誤差の範囲を足し引きします。
-
信頼区間の下限
- $20.5 - 0.799 = 19.701$
-
信頼区間の上限
- $20.5 + 0.799 = 21.299$
結論
このスマートフォンのバッテリー持続時間の母平均 $\mu$ に対する95%信頼区間は、
19.701時間 から 21.299時間 であると推定されます。
ステップ2
一般化と定義
手順の一般化 (Step 1)
Step 1: 標本から基本統計量を計算する
まず、手元の標本データから以下の値を計算します。
- サンプルサイズ: $n$
- 標本平均: $\bar{x}$
- 不偏分散: $s^2$
不偏分散 $s^2$ の計算式
$$
s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2
$$
手順の一般化 (Step 2)
Step 2: 自由度とt値を決定する
-
信頼係数 ($1-\alpha$) を決める
- 例: 95%信頼区間なら $\alpha = 0.05$
-
自由度 ($df$) を計算する
- $df = n - 1$
-
t値を求める
- t分布表などから、自由度 $df$ と片側確率 $\alpha/2$ に対応するt値 $t(df, \alpha/2)$ を探します。
手順の一般化 (Step 3)
Step 3: 信頼区間を計算する
最後に、以下の公式に求めた値を代入して、母平均 $\mu$ の信頼区間を計算します。
母平均の信頼区間の公式(母分散未知)
この公式は、母集団が正規分布に従うという前提のもとで成り立ちます。
$$
\bar{x} - t(n-1, \alpha/2) \frac{s}{\sqrt{n}} \le \mu \le \bar{x} + t(n-1, \alpha/2) \frac{s}{\sqrt{n}}
$$
まとめ
-
母分散が未知の場合 は、標本から計算した不偏分散を代用します。
-
推定の不確かさを考慮するため、正規分布の代わりに t分布 を用います。
-
t分布は 自由度 ($n-1$) というパラメータで形状が決まります。
この手順を理解することで、より現実的なデータ分析の場面で母平均を区間推定できるようになります。
