概要
分散分析(ANOVA: Analysis of Variance) は、2群以上の母平均の差を検定するための方法です。
「複数のグループの平均値が全て等しいか?」を帰無仮説として検定します。
- 例:3種類の肥料を使った場合の作物の収量に差があるか?
- 例:異なる教育プログラムを受けた学生のテストの平均点に差があるか?
分散分析の基本構造
観測データの総変動(SST: Total Sum of Squares)を
- 水準間(群間)の変動(SSB: Between-groups Sum of Squares)
- 残差(群内)の変動(SSW: Within-groups Sum of Squares)
に分解します。
$$
SS_T = SS_B + SS_W
$$
数式展開
1. 全平方和(全体のばらつき)
$$
SS_T = \sum_{j=1}^k \sum_{i=1}^{n_j} (X_{ij} - \bar{X})^2
$$
- $k$ : 水準の数(群の数)
- $n_j$ : 各群の標本サイズ
- $X_{ij}$ : 群 $j$ の標本値 $i$
- $\bar{X}$ : 全データの平均(総平均)
2. 水準間(群間)平方和
$$
SS_B = \sum_{j=1}^k n_j (\bar{X}_{j} - \bar{X})^2
$$
- $\bar{X}_{j}$ : 群 $j$ の平均
- 「各群の平均と全体平均の差」を比較する項
3. 残差(群内)平方和
$$
SS_W = \sum_{j=1}^k \sum_{i=1}^{n_j} (X_{ij} - \bar{X}_{j})^2
$$
- 各群内でのばらつきを示す
分散分析表(ANOVA Table)
| 変動の要因 | 平方和 (SS) | 自由度 (df) | 平均平方 (MS) | F比 |
|---|---|---|---|---|
| 水準間 | $SS_B$ | $k-1$ | $MS_B = SS_B / (k-1)$ | $F = MS_B / MS_W$ |
| 残差 | $SS_W$ | $N-k$ | $MS_W = SS_W / (N-k)$ | — |
| 全体 | $SS_T$ | $N-1$ | — | — |
- $N = \sum_{j=1}^k n_j$ : 全データ数
- F値は「水準間の分散 / 群内の分散」で計算し、帰無仮説を検定します。
F値の分布と仮説検定
帰無仮説:
$$
H_0 : \mu_1 = \mu_2 = \cdots = \mu_k
$$
対立仮説:
$$
H_1 : \text{少なくとも1つの母平均が異なる}
$$
検定統計量:
$$
F = \frac{MS_B}{MS_W} \sim F(k-1, N-k)
$$
問題例
問題1
3種類の肥料 A, B, C を用いて作物の収量(kg)を調べた。各群のデータは以下の通り:
- 肥料A: 8, 9, 6, 7
- 肥料B: 5, 6, 7, 8
- 肥料C: 6, 5, 4, 5
有意水準5%で、肥料による収量の差があるかを検定せよ。
Step 1. データの整理
- 群数 $k = 3$
- 各群の標本数 $n_1 = n_2 = n_3 = 4$
- 全データ数 $N = 12$
Step 2. 群ごとの平均と全体平均
-
肥料A:
水準内平均 $\bar{X}_{A} = (8+9+6+7)/4 = 7.5$ -
肥料B:
水準内平均 $\bar{X}_{B} = (5+6+7+8)/4 = 6.5$ -
肥料C:
水準内平均 $\bar{X}_{C} = (6+5+4+5)/4 = 5.0$ -
全体平均:
$
\bar{X} = (8+9+6+7+5+6+7+8+6+5+4+5)/12 = 6.39 ;(\text{約})
$
Step 3. 全平方和(SST)
$$
SS_T = \sum_{j=1}^k \sum_{i=1}^{n_j} (X_{ij} - \bar{X})^2
$$
計算すると:
$$
SS_T \approx 25.58
$$
Step 4. 水準間(群間)平方和(SSB)
$$
SS_B = \sum_{j=1}^k n_j (\bar{X}_{j} - \bar{X})^2
$$
$$
SS_B = 4(7.5-6.39)^2 + 4(6.5-6.39)^2 + 4(5.0-6.39)^2
$$
$$
SS_B \approx 13.58
$$
Step 5. 残差(群内)平方和(SSW)
$$
SS_W = SS_T - SS_B = 25.58 - 13.58 = 12.00
$$
Step 6. 分散分析表の作成
| 要因 | 平方和 (SS) | 自由度 (df) | 平均平方 (MS) | F比(F値) |
|---|---|---|---|---|
| 水準間(群間) | 13.58 | 2 | 6.79 | 6.79 / 1.33 ≈ 5.11 |
| 残差(群内) | 12.00 | 9 | 1.33 | — |
| 全体 | 25.58 | 11 | — | — |
Step 7. 検定
- F値: $F = 5.11$
- 自由度: (2, 9)
- 有意水準5%のF分布の臨界値: $F_{0.05}(2,9) \approx 4.26$
Step 8. 結論
$
F = 5.11 > 4.26
$
よって、帰無仮説「母平均が等しい」を棄却。
肥料の種類によって収量に差があるといえる。