以下の統計検定2級®︎対策動画で用いられているスライドの一部です。
統計検定®2級対策オリジナル問題であり、非公式です。
※統計検定®は一般財団法人統計質保証推進協会の登録商標です。
問題
ある農業研究所が、3種類の新しい肥料(A, B, C)が特定の作物の収穫量に与える影響を比較するため、各肥料を6つずつ、計18の試験区画に割り当てて実験を行った。収穫量(kg/区画)のデータを用いて、肥料の種類を要因とする一元配置分散分析を行った結果、次の表を得た。
分散分析表
| 要因 | 平方和 | 自由度 | 平均平方 | F値 | Pr(>F) |
|---|---|---|---|---|---|
| 肥料 | 2.40 | (ア) | (ウ) | (オ) | 0.040 |
| 残差 | 4.50 | (イ) | (エ) |
問題
[1] この18区画の収穫量の標本分散(不偏分散)はいくらか。次の①~⑤のうちから最も適切なものを一つ選べ。
① 0.160
② 0.300
③ 0.406
④ 1.200
⑤ 6.900
問題
[2] 表の(ア)~(オ)にあてはまる値の組合せとして、次の①~⑤のうちから最も適切なものを一つ選べ。
| 要因 | 平方和 | 自由度 | 平均平方 | F値 | Pr(>F) |
|---|---|---|---|---|---|
| 肥料 | 2.40 | (ア) | (ウ) | (オ) | 0.040 |
| 残差 | 4.50 | (イ) | (エ) |
① (ア) 2 (イ) 15 (ウ) 1.20 (エ) 0.30 (オ) 4.00
② (ア) 3 (イ) 15 (ウ) 0.80 (エ) 0.30 (オ) 2.67
③ (ア) 2 (イ) 17 (ウ) 1.20 (エ) 0.26 (オ) 4.54
④ (ア) 2 (イ) 15 (ウ) 0.30 (エ) 1.20 (オ) 0.25
⑤ (ア) 3 (イ) 14 (ウ) 0.80 (エ) 0.32 (オ) 2.50
問題
[3] 3種類の肥料を用いた場合の収穫量の母平均をそれぞれ $\mu_A, \mu_B, \mu_C$ とする。上の分散分析表に基づき有意水準5%で検定を行ったときの記述として、次の①~④のうちから最も適切なものを一つ選べ。
① 帰無仮説 $H_0: \mu_A = \mu_B = \mu_C$ は棄却され、3種類の肥料の収穫量への影響は異なると結論できる。
② 帰無仮説 $H_0: \mu_A = \mu_B = \mu_C$ は棄却されず、3種類の肥料の収穫量への影響に差があるとはいえない。
③ 対立仮説 $H_1: \mu_A \neq \mu_B \neq \mu_C$ は採択され、3種類の肥料の収穫量への影響はすべて異なると結論できる。
④ 対立仮説 $H_1: \mu_A \neq \mu_B \neq \mu_C$ は採択されず、3種類の肥料の収穫量への影響は等しいと結論できる。
解答
- [1] ③
- [2] ①
- [3] ①
ポイント:一元配置分散分析の考え方 ①統計モデル
一元配置分散分析は、個々のデータがどのような要素で構成されているかを示す、以下の統計モデルに基づいています。
$$
y_{ij} = \mu + \alpha_i + \varepsilon_{ij}
$$
- $y_{ij}$: $i$ 番目の肥料を使った $j$ 番目の区画の収穫量
- $\mu$: 全体の平均収穫量
- $\alpha_i$: $i$ 番目の肥料がもたらす効果(平均からのズレ)
- $\varepsilon_{ij}$: 測定誤差など、偶然によるばらつき
これは、「個々のデータ」=「全体の平均」+「要因(肥料)の効果」+「誤差」 と考えることを意味します。
一元配置分散分析の目的は、この「要因の効果 ($\alpha_i$)」が本当に存在すると言えるのか(つまり、$\alpha_A, \alpha_B, \alpha_C$ に意味のある差があるのか)を検証することです。
ポイント:一元配置分散分析の考え方 ②ばらつきの分解
上の統計モデルに基づいて、データの 全体のばらつき を 要因によるばらつき と 誤差によるばらつき に分解して考えます。
- 全体のばらつき(全平方和): 全データのばらつきの総量。
- 要因のばらつき(要因平方和): グループ間の平均値の差によるばらつき。(モデルの要因の効果 $\alpha_i$ の大きさに対応)
- 誤差のばらつき(残差平方和): グループ内の偶然によるばらつき。(モデルの誤差 $\varepsilon_{ij}$ の大きさに対応)
この関係は、以下の式で表されます。
$$
\text{(全平方和)} = \text{(要因平方和)} + \text{(残差平方和)}
$$
問題
[1] この18区画の収穫量の標本分散(不偏分散)はいくらか。次の①~⑤のうちから最も適切なものを一つ選べ。
① 0.160
② 0.300
③ 0.406
④ 1.200
⑤ 6.900
解答の根拠 [1]
標本全体の不偏分散は、全体の平方和 を 全体の自由度 で割ることで計算できます。
-
全体の平方和 ($S_T$) を求める
「全体の平方和 = 要因の平方和 + 残差の平方和」の関係を使います。
$$S_T = 2.40 + 4.50 = 6.90$$ -
全体の自由度 ($df_T$) を求める
「全体の自由度 = 全データ数 - 1」で計算します。
$$df_T = 18 - 1 = 17$$ -
不偏分散 ($V$) を計算する
$$V = \frac{S_T}{df_T} = \frac{6.90}{17} \approx 0.40588...$$
したがって、最も近い値は ③ 0.406 となります。
ポイント:一元配置分散分析表の作り方
分散分析表の各項目は、決まった手順で計算できます。
-
自由度: データの数やグループの数から決まる値。
- 要因の自由度 = (グループの数) - 1
- 残差の自由度 = (全データ数) - (グループの数)
-
平均平方: 平方和を自由度で割った値。ばらつきの平均的な大きさを表します。
- 要因の平均平方 = (要因の平方和) / (要因の自由度)
- 残差の平均平方 = (残差の平方和) / (残差の自由度)
-
F値: 要因によるばらつきが、誤差によるばらつきの何倍かを示す指標。
- F値 = (要因の平均平方) / (残差の平均平方)
問題
[2] 表の(ア)~(オ)にあてはまる値の組合せとして、次の①~⑤のうちから最も適切なものを一つ選べ。
| 要因 | 平方和 | 自由度 | 平均平方 | F値 | Pr(>F) |
|---|---|---|---|---|---|
| 肥料 | 2.40 | (ア) | (ウ) | (オ) | 0.040 |
| 残差 | 4.50 | (イ) | (エ) |
① (ア) 2 (イ) 15 (ウ) 1.20 (エ) 0.30 (オ) 4.00
② (ア) 3 (イ) 15 (ウ) 0.80 (エ) 0.30 (オ) 2.67
③ (ア) 2 (イ) 17 (ウ) 1.20 (エ) 0.26 (オ) 4.54
④ (ア) 2 (イ) 15 (ウ) 0.30 (エ) 1.20 (オ) 0.25
⑤ (ア) 3 (イ) 14 (ウ) 0.80 (エ) 0.32 (オ) 2.50
解答の根拠 [2]
各項目を定義に従って順番に計算します。
-
(ア) 要因(肥料)の自由度 ($df_A$)
グループ数(肥料3種類) - 1
$$ (ア) = 3 - 1 = 2 $$ -
(イ) 残差の自由度 ($df_E$)
全データ数(18) - グループ数(3)
$$ (イ) = 18 - 3 = 15 $$ -
(ウ) 要因の平均平方 ($V_A$)
$$ (ウ) = \frac{\text{要因の平方和}}{\text{要因の自由度}} = \frac{2.40}{2} = 1.20 $$
-
(エ) 残差の平均平方 ($V_E$)
$$ (エ) = \frac{\text{残差の平方和}}{\text{残差の自由度}} = \frac{4.50}{15} = 0.30 $$
-
(オ) F値
$$ (オ) = \frac{\text{要因の平均平方}}{\text{残差の平均平方}} = \frac{1.20}{0.30} = 4.00 $$
これらの結果と一致するのは ① です。
ポイント:分散分析における仮説検定
分散分析では、以下の2つの仮説を立てて検定を行います。
-
帰無仮説 ($H_0$): すべてのグループの母平均は等しい 。
今回の問題では、「3種類の肥料による収穫量の母平均に差はない」
$$H_0: \mu_A = \mu_B = \mu_C$$ -
対立仮説 ($H_1$): 少なくとも1つのグループの母平均は他のグループと異なる 。
今回の問題では、「3種類の肥料の母平均のうち、少なくとも1組は異なる」
注意: 対立仮説は「 すべて の母平均が異なる ($\mu_A \neq \mu_B \neq \mu_C$ )」 ではない 点が重要です。
ポイント:P値による検定の判断
計算されたF値からP値(確率)が求められます。このP値と、あらかじめ決めておいた 有意水準 (通常 5% や 1% )を比較して結論を出します。
-
P値 ≤ 有意水準 の場合
- 帰無仮説は 棄却 される。
- 「グループの平均値には 統計的に有意な差がある 」と結論する。
-
P値 > 有意水準 の場合
- 帰無仮説は 棄却されない 。
- 「グループの平均値に 統計的に有意な差があるとはいえない 」と結論する。
問題
[3] 3種類の肥料を用いた場合の収穫量の母平均をそれぞれ $\mu_A, \mu_B, \mu_C$ とする。上の分散分析表に基づき有意水準5%で検定を行ったときの記述として、次の①~④のうちから最も適切なものを一つ選べ。
① 帰無仮説 $H_0: \mu_A = \mu_B = \mu_C$ は棄却され、3種類の肥料の収穫量への影響は異なると結論できる。
② 帰無仮説 $H_0: \mu_A = \mu_B = \mu_C$ は棄却されず、3種類の肥料の収穫量への影響に差があるとはいえない。
③ 対立仮説 $H_1: \mu_A \neq \mu_B \neq \mu_C$ は採択され、3種類の肥料の収穫量への影響はすべて異なると結論できる。
④ 対立仮説 $H_1: \mu_A \neq \mu_B \neq \mu_C$ は採択されず、3種類の肥料の収穫量への影響は等しいと結論できる。
解答の根拠 [3]
分散分析表のP値($Pr(>F)$)と有意水準を比較して判断します。
- P値: 0.040
- 有意水準: 5% = 0.05
P値と有意水準を比較すると、$0.040 \le 0.05$ となります。
これは 「P値 ≤ 有意水準」 のケースに該当するため、帰無仮説 $H_0: \mu_A = \mu_B = \mu_C$ は棄却されます 。
この結果は、「3種類の肥料による収穫量の母平均には差がない」という仮説が否定され、「 少なくとも1種類の肥料は、他の肥料と収穫量への影響が異なる 」と結論できることを意味します。
各選択肢を検討すると、
- ① 正しい。 帰無仮説が棄却され、肥料の影響が異なると結論できます。
- ② 「棄却されず」が誤りです。
- ③ 対立仮説の定義が「すべて異なる」となっており、誤っています。
- ④ 結論が誤っています。
したがって、最も適切な記述は ① です。