0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【統計検定®︎2級対策】分散分析表

Posted at

以下の統計検定2級®︎対策動画で用いられているスライドの一部です。

統計検定®2級対策オリジナル問題であり、非公式です。
※統計検定®は一般財団法人統計質保証推進協会の登録商標です。


問題

ある農業研究所が、3種類の新しい肥料(A, B, C)が特定の作物の収穫量に与える影響を比較するため、各肥料を6つずつ、計18の試験区画に割り当てて実験を行った。収穫量(kg/区画)のデータを用いて、肥料の種類を要因とする一元配置分散分析を行った結果、次の表を得た。

分散分析表

要因 平方和 自由度 平均平方 F値 Pr(>F)
肥料 2.40 (ア) (ウ) (オ) 0.040
残差 4.50 (イ) (エ)

問題

[1] この18区画の収穫量の標本分散(不偏分散)はいくらか。次の①~⑤のうちから最も適切なものを一つ選べ。

① 0.160
② 0.300
③ 0.406
④ 1.200
⑤ 6.900


問題

[2] 表の(ア)~(オ)にあてはまる値の組合せとして、次の①~⑤のうちから最も適切なものを一つ選べ。

要因 平方和 自由度 平均平方 F値 Pr(>F)
肥料 2.40 (ア) (ウ) (オ) 0.040
残差 4.50 (イ) (エ)

① (ア) 2 (イ) 15 (ウ) 1.20 (エ) 0.30 (オ) 4.00
② (ア) 3 (イ) 15 (ウ) 0.80 (エ) 0.30 (オ) 2.67
③ (ア) 2 (イ) 17 (ウ) 1.20 (エ) 0.26 (オ) 4.54
④ (ア) 2 (イ) 15 (ウ) 0.30 (エ) 1.20 (オ) 0.25
⑤ (ア) 3 (イ) 14 (ウ) 0.80 (エ) 0.32 (オ) 2.50


問題

[3] 3種類の肥料を用いた場合の収穫量の母平均をそれぞれ $\mu_A, \mu_B, \mu_C$ とする。上の分散分析表に基づき有意水準5%で検定を行ったときの記述として、次の①~④のうちから最も適切なものを一つ選べ。

① 帰無仮説 $H_0: \mu_A = \mu_B = \mu_C$ は棄却され、3種類の肥料の収穫量への影響は異なると結論できる。
② 帰無仮説 $H_0: \mu_A = \mu_B = \mu_C$ は棄却されず、3種類の肥料の収穫量への影響に差があるとはいえない。
③ 対立仮説 $H_1: \mu_A \neq \mu_B \neq \mu_C$ は採択され、3種類の肥料の収穫量への影響はすべて異なると結論できる。
④ 対立仮説 $H_1: \mu_A \neq \mu_B \neq \mu_C$ は採択されず、3種類の肥料の収穫量への影響は等しいと結論できる。


解答

  • [1]
  • [2]
  • [3]

ポイント:一元配置分散分析の考え方 ①統計モデル

一元配置分散分析は、個々のデータがどのような要素で構成されているかを示す、以下の統計モデルに基づいています。

$$
y_{ij} = \mu + \alpha_i + \varepsilon_{ij}
$$

  • $y_{ij}$: $i$ 番目の肥料を使った $j$ 番目の区画の収穫量
  • $\mu$: 全体の平均収穫量
  • $\alpha_i$: $i$ 番目の肥料がもたらす効果(平均からのズレ)
  • $\varepsilon_{ij}$: 測定誤差など、偶然によるばらつき

これは、「個々のデータ」=「全体の平均」+「要因(肥料)の効果」+「誤差」 と考えることを意味します。
一元配置分散分析の目的は、この「要因の効果 ($\alpha_i$)」が本当に存在すると言えるのか(つまり、$\alpha_A, \alpha_B, \alpha_C$ に意味のある差があるのか)を検証することです。


ポイント:一元配置分散分析の考え方 ②ばらつきの分解

上の統計モデルに基づいて、データの 全体のばらつき要因によるばらつき誤差によるばらつき に分解して考えます。

  • 全体のばらつき(全平方和): 全データのばらつきの総量。
  • 要因のばらつき(要因平方和): グループ間の平均値の差によるばらつき。(モデルの要因の効果 $\alpha_i$ の大きさに対応)
  • 誤差のばらつき(残差平方和): グループ内の偶然によるばらつき。(モデルの誤差 $\varepsilon_{ij}$ の大きさに対応)

この関係は、以下の式で表されます。

$$
\text{(全平方和)} = \text{(要因平方和)} + \text{(残差平方和)}
$$


問題

[1] この18区画の収穫量の標本分散(不偏分散)はいくらか。次の①~⑤のうちから最も適切なものを一つ選べ。

① 0.160
② 0.300
③ 0.406
④ 1.200
⑤ 6.900


解答の根拠 [1]

標本全体の不偏分散は、全体の平方和全体の自由度 で割ることで計算できます。

  1. 全体の平方和 ($S_T$) を求める

    「全体の平方和 = 要因の平方和 + 残差の平方和」の関係を使います。
    $$S_T = 2.40 + 4.50 = 6.90$$

  2. 全体の自由度 ($df_T$) を求める

    「全体の自由度 = 全データ数 - 1」で計算します。
    $$df_T = 18 - 1 = 17$$

  3. 不偏分散 ($V$) を計算する

    $$V = \frac{S_T}{df_T} = \frac{6.90}{17} \approx 0.40588...$$

したがって、最も近い値は ③ 0.406 となります。


ポイント:一元配置分散分析表の作り方

分散分析表の各項目は、決まった手順で計算できます。

  • 自由度: データの数やグループの数から決まる値。

    • 要因の自由度 = (グループの数) - 1
    • 残差の自由度 = (全データ数) - (グループの数)
  • 平均平方: 平方和を自由度で割った値。ばらつきの平均的な大きさを表します。

    • 要因の平均平方 = (要因の平方和) / (要因の自由度)
    • 残差の平均平方 = (残差の平方和) / (残差の自由度)
  • F値: 要因によるばらつきが、誤差によるばらつきの何倍かを示す指標。

    • F値 = (要因の平均平方) / (残差の平均平方)

問題

[2] 表の(ア)~(オ)にあてはまる値の組合せとして、次の①~⑤のうちから最も適切なものを一つ選べ。

要因 平方和 自由度 平均平方 F値 Pr(>F)
肥料 2.40 (ア) (ウ) (オ) 0.040
残差 4.50 (イ) (エ)

① (ア) 2 (イ) 15 (ウ) 1.20 (エ) 0.30 (オ) 4.00
② (ア) 3 (イ) 15 (ウ) 0.80 (エ) 0.30 (オ) 2.67
③ (ア) 2 (イ) 17 (ウ) 1.20 (エ) 0.26 (オ) 4.54
④ (ア) 2 (イ) 15 (ウ) 0.30 (エ) 1.20 (オ) 0.25
⑤ (ア) 3 (イ) 14 (ウ) 0.80 (エ) 0.32 (オ) 2.50


解答の根拠 [2]

各項目を定義に従って順番に計算します。

  • (ア) 要因(肥料)の自由度 ($df_A$)

    グループ数(肥料3種類) - 1
    $$ (ア) = 3 - 1 = 2 $$

  • (イ) 残差の自由度 ($df_E$)

    全データ数(18) - グループ数(3)
    $$ (イ) = 18 - 3 = 15 $$

  • (ウ) 要因の平均平方 ($V_A$)

    $$ (ウ) = \frac{\text{要因の平方和}}{\text{要因の自由度}} = \frac{2.40}{2} = 1.20 $$


  • (エ) 残差の平均平方 ($V_E$)

    $$ (エ) = \frac{\text{残差の平方和}}{\text{残差の自由度}} = \frac{4.50}{15} = 0.30 $$

  • (オ) F値

    $$ (オ) = \frac{\text{要因の平均平方}}{\text{残差の平均平方}} = \frac{1.20}{0.30} = 4.00 $$

これらの結果と一致するのは です。


ポイント:分散分析における仮説検定

分散分析では、以下の2つの仮説を立てて検定を行います。

  • 帰無仮説 ($H_0$): すべてのグループの母平均は等しい

    今回の問題では、「3種類の肥料による収穫量の母平均に差はない」
    $$H_0: \mu_A = \mu_B = \mu_C$$

  • 対立仮説 ($H_1$): 少なくとも1つのグループの母平均は他のグループと異なる

    今回の問題では、「3種類の肥料の母平均のうち、少なくとも1組は異なる」

    注意: 対立仮説は「 すべて の母平均が異なる ($\mu_A \neq \mu_B \neq \mu_C$ )」 ではない 点が重要です。


ポイント:P値による検定の判断

計算されたF値からP値(確率)が求められます。このP値と、あらかじめ決めておいた 有意水準 (通常 5% や 1% )を比較して結論を出します。

  • P値 ≤ 有意水準 の場合

    • 帰無仮説は 棄却 される。
    • 「グループの平均値には 統計的に有意な差がある 」と結論する。
  • P値 > 有意水準 の場合

    • 帰無仮説は 棄却されない
    • 「グループの平均値に 統計的に有意な差があるとはいえない 」と結論する。

問題

[3] 3種類の肥料を用いた場合の収穫量の母平均をそれぞれ $\mu_A, \mu_B, \mu_C$ とする。上の分散分析表に基づき有意水準5%で検定を行ったときの記述として、次の①~④のうちから最も適切なものを一つ選べ。

① 帰無仮説 $H_0: \mu_A = \mu_B = \mu_C$ は棄却され、3種類の肥料の収穫量への影響は異なると結論できる。
② 帰無仮説 $H_0: \mu_A = \mu_B = \mu_C$ は棄却されず、3種類の肥料の収穫量への影響に差があるとはいえない。
③ 対立仮説 $H_1: \mu_A \neq \mu_B \neq \mu_C$ は採択され、3種類の肥料の収穫量への影響はすべて異なると結論できる。
④ 対立仮説 $H_1: \mu_A \neq \mu_B \neq \mu_C$ は採択されず、3種類の肥料の収穫量への影響は等しいと結論できる。


解答の根拠 [3]

分散分析表のP値($Pr(>F)$)と有意水準を比較して判断します。

  • P値: 0.040
  • 有意水準: 5% = 0.05

P値と有意水準を比較すると、$0.040 \le 0.05$ となります。
これは 「P値 ≤ 有意水準」 のケースに該当するため、帰無仮説 $H_0: \mu_A = \mu_B = \mu_C$ は棄却されます

この結果は、「3種類の肥料による収穫量の母平均には差がない」という仮説が否定され、「 少なくとも1種類の肥料は、他の肥料と収穫量への影響が異なる 」と結論できることを意味します。


各選択肢を検討すると、

  • ① 正しい。 帰無仮説が棄却され、肥料の影響が異なると結論できます。
  • ② 「棄却されず」が誤りです。
  • ③ 対立仮説の定義が「すべて異なる」となっており、誤っています。
  • ④ 結論が誤っています。

したがって、最も適切な記述は です。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?