概要
カイ2乗分布(χ²分布) は、統計学において以下のような役割を果たす重要な分布です。
-
分散に関する推定・検定
母分散の信頼区間や仮説検定では、標本分散と χ² 分布を用いる。 -
適合度検定
観測データが理論分布に従っているかどうかを調べる。 -
独立性の検定
クロス集計表(カテゴリーデータ)が独立かどうかを調べる。 -
分布の定義
標準正規分布に従う確率変数 $Z_1, Z_2, ..., Z_k$ の二乗和がカイ2乗分布に従う:$$
\chi^2 = Z_1^2 + Z_2^2 + \cdots + Z_k^2 \sim \chi^2_k
$$
仮設検定における各分布の使用判断フロー
数式
1. カイ二乗分布の基本式
母分散が既知の場合
母集団が正規分布 $N(\mu, \sigma^2)$ に従うとき:
$$
Q = \frac{\sum_{i=1}^n (X_i - \mu)^2}{\sigma^2} \sim \chi^2(n)
$$
- 分母:母分散 $\sigma^2$(既知)
- 自由度:$n$
母分散が未知の場合(標本分散を使う)
標本分散を
$$
s^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2
$$
母分散 $\sigma^2$ が未知の場合、標本分散を使ってカイ二乗統計量 $Q$ を定義します:
$$
Q = \frac{\sum_{i=1}^n (X_i - \bar{X})^2}{\sigma^2}
$$
とすると:
$$
Q = \frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1)
$$
- 分母:母分散 $\sigma^2$(仮定値)
- 自由度:$n-1$
- 理由:標本平均 $\bar{X}$ を推定に用いたため、自由度が 1 減る。
2. 母分散の検定に使う統計量
標本分散 $S^2$ を用いると:
$$
Q = \frac{(n-1) S^2}{\sigma^2} \sim \chi^2_{n-1}
$$
3. 信頼区間(母分散の区間推定)
有意水準 $\alpha$ のとき:
$$
\frac{(n-1)S^2}{\chi^2_{1-\alpha/2, , n-1}} ; < ; \sigma^2 ; < ; \frac{(n-1)S^2}{\chi^2_{\alpha/2, , n-1}}
$$
4. 適合度検定(Goodness-of-Fit Test)
観測度数 $O_i$ と期待度数 $E_i$ があるとき、検定統計量は:
$$
\chi^2 = \sum_{i=1}^k \frac{(O_i - E_i)^2}{E_i}
$$
- 帰無仮説 H₀:データは理論分布に従う
- 自由度:カテゴリ数 $k-1$(推定パラメータを引く場合もある)
- 判定基準:棄却域に入れば「理論分布に従わない」
数式の説明
-
帰無仮説と対立仮説
- H₀: 母分散は仮定値と等しい
- H₁: 母分散は異なる/大きい/小さい
-
検定量 Q
- 標本分散を母分散で割り、自由度に応じた χ² 分布に従う
-
棄却域
- 両側検定:χ² の値が両端に外れたら H₀ を棄却
- 片側検定:χ² の値が大きすぎる/小さすぎる場合に棄却
-
母分散検定
- 標本分散を母分散で割り、χ² 分布に従う量を構築する。
- 両側・片側検定で棄却域が変わる。
-
適合度検定
- 観測度数と期待度数のずれを二乗して規格化。
- 理論分布と観測データの一致度を評価する。
問題例
問題1(母分散の信頼区間)
ある製品の重量を 10 個測定したところ、標本分散は $S^2 = 4$ であった。
母分散の 95% 信頼区間を求めよ。
解き方
自由度 $n-1 = 9$。
χ² の分位点は $\chi^2_{0.025, 9} = 19.02$、$\chi^2_{0.975, 9} = 2.70$。
$$
\frac{9 \times 4}{19.02} < \sigma^2 < \frac{9 \times 4}{2.70}
$$
$$
1.89 < \sigma^2 < 13.33
$$
問題2(母分散の仮説検定・両側)
ある部品の直径の母分散が $\sigma_0^2 = 0.01$ とされている。
標本サイズ 20、標本分散 $S^2 = 0.025$ が得られた。
有意水準 5% で「母分散が 0.01 と異なる」といえるか?
解き方
-
仮説の設定:
$H_0 : \sigma^2 = 0.01$,
$H_1 : \sigma^2 \neq 0.01$ -
検定量:
$$
Q = \frac{(n-1) S^2}{\sigma_0^2}
= \frac{19 \times 0.025}{0.01} = 47.5
$$ -
棄却域:
自由度 19、5% 両側 →
$\chi^2_{0.025,19} = 32.85$,
$\chi^2_{0.975,19} = 8.91$ -
判定:
$Q = 47.5 > 32.85$ → H₀ を棄却。
母分散は 0.01 とは異なるといえる。
問題3(適合度検定)
あるサイコロを 60 回振ったところ、以下の出目の回数が得られた。
サイコロは「公平(1/6の確率で出る)」といえるか?
出目 | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
観測度数 O | 8 | 10 | 9 | 12 | 11 | 10 |
期待度数 E | 10 | 10 | 10 | 10 | 10 | 10 |
解き方
-
仮説の設定:
H₀: サイコロは公平である
H₁: サイコロは公平でない -
検定統計量(適合度検定):
$$
\chi^2 = \sum \frac{(O - E)^2}{E}
$$$$
= \frac{(8-10)^2}{10} + \frac{(10-10)^2}{10} + \cdots + \frac{(10-10)^2}{10}
= \frac{4}{10} + 0 + \frac{1}{10} + \frac{4}{10} + \frac{1}{10} + 0
= 1.0
$$ -
棄却域:
自由度 $k-1 = 5$、有意水準 5%
→ χ²_{0.95, 5} = 11.07 -
判定:
検定統計量 1.0 < 11.07 → H₀ を棄却できない
→ サイコロは公平とみなせる。