統計的仮説検定
多重仮説検定の前に「統計的仮説検定」についてです。
A群とB群の平均が異なる 事を示したい場合
- 「A群とB群の平均が異なる」という命題を証明したい
- 命題を否定し、「A群とB群の平均は等しい」と仮定する
- 「A群とB群の平均は等しい」と仮定したものでデータを取り、互いの標本平均を求める。この標本平均が「A群とB群の平均は等しい」としたときに極めて稀にしか起こり得ないということを観察する
- 命題の否定「A群とB群の平均は等しい」はおかしいと判断する
- 命題「A群とB群の平均が異なる」を正しいと判断する
示したい命題(上記では「A群とB群の平均が異なる」)は対立仮説
示したい命題に対して否定したものを帰無仮説と言います
検定手法等
有意水準
上記命題決定の流れの「極めて稀にしか起こり得ない」について設ける閾値です。
$\alpha = 0.05, 0.025, 0.01$等が多く使われると思います。
母比率検定
- 比率の検定
- n人中x人が「はい」で支持率は〇〇% のようなデータに対して用いる
- サンプル数nと比率pが観測値として必要
2群比較式
z = \frac{\hat{p_1} - \hat{p_2}}{\sqrt{p (1 - p) (\frac{1}{n_1} + \frac{1}{n_2})}}
\\
p = \frac{n_1 \hat{p_1} + n_2 \hat{p_2}}{n_1 + n_2}
t検定
- 母平均の検定
- n人の平均購入金額はxx円 のようなデータに対して用いる
- 観測データの母集団は正規分布に従うと仮定
- 比較する2つの群は分散が等しいと仮定
- 出来ない場合はウェルチのt検定
2群比較式
t = \frac{\hat{\mu_1} - \hat{\mu_2}}{\sqrt{s_p^2(\frac{1}{n_1} + \frac{1}{n_2})}}
\\
s_p^2 = \frac{(n_1 - 1)s_1 + (n_2 - 1)s_2}{n_1 + n_2 - 2}
多重仮説検定の問題
例
年代 + 性別 別での商品Aについての1週間当たり購入金額に差があるか調べた。年代性別6つのグループに分け商品Aについての標本平均とサンプル数を出してまとめました。
※各サンプルは独立、どのグループも母集団が正規分布に従い、等分散性があるとします。
グループNo | グループ | 商品A購入金額標本平均(μ) | サンプル数(n) | 不偏標準偏差(s) |
---|---|---|---|---|
1 | 20代男性 | 856.4 | 47 | 340.2 |
2 | 20代女性 | 870.2 | 80 | 363.0 |
3 | 30代男性 | 880.8 | 60 | 349.5 |
4 | 30代女性 | 955.8 | 120 | 346.3 |
5 | 40代男性 | 819.2 | 65 | 360.8 |
6 | 40代女性 | 907.3 | 108 | 355.3 |
この表から「40代男性が標本平均が最も低」く、「30代女性が標本平均が最も高」いことに注目し、以下の主張をした。
40代男性と30代女性のデータから帰無仮説と対立仮説を
H0 : \mu_4 = \mu_5 \qquad H1 : \mu_4 > \mu_5
の検定をt検定により行うと、統計量tの値は
t = \frac{955.8 - 819.2}{s_p^2 (\frac{1}{120} + \frac{1}{65})} = 2.523841593....
\\
s_p^2 = \frac{119 \cdot 346.3^2 + 64 \cdot 360.8^2}{120 + 65 - 2}
2.523... となり、この値は、自由度183(120 + 65 - 2)のt分布の99.37%点に位置することが分かった
したがって、帰無仮説H0は有意水準1%で棄却される。つまり、女性30代は男性40代よりも購入金額が高いと有意水準1%で主張できる。
問題点
今回の場合、6グループ全てのデータを見てから、仮説を決めており、
H0 : \mu_1 = \mu_2 \quad H0 : \mu_1 = \mu_3 \quad H0 : \mu_1 = \mu_4 \quad H0 : \mu_1 = \mu_5 \quad H0 : \mu_1 = \mu_6
\\
H0 : \mu_2 = \mu_3 \quad H0 : \mu_2 = \mu_4 \quad H0 : \mu_2 = \mu_5 \quad H0 : \mu_2 = \mu_6 \quad H0 : \mu_3 = \mu_4
\\
H0 : \mu_3 = \mu_5 \quad H0 : \mu_3 = \mu_6 \quad H0 : \mu_4 = \mu_5 \quad H0 : \mu_4 = \mu_6 \quad H0 : \mu_5 = \mu_6
の15通りの帰無仮説の内、一番標本平均に差のある$H0 : \mu_4 = \mu_5$で、検定を掛けたという事になります。
仮説検定で、帰無仮説を棄却する流れとしては 「A群とB群の平均は等しい」としたときに極めて稀にしか起こり得ない とした時に棄却します。
よって、極めて稀にしか起こり得ないが、本当に「A群とB群の平均は等しい」場合の誤り(第一種の誤り)についての考慮が抜けています。
有意水準1%の場合、本当に「A群とB群の平均は等しい」のに、帰無仮説を棄却する第一種の誤りを起こす確率は1%あります。
上記15通りの帰無仮説が全て本当だとして、少なくとも1つが第一種の誤りを起こす確率は
1 - 0.99^{15} = 0.13994...
で約14%となります。
この数値は例で主張した有意水準1%よりもはるかに大きい値になっている為、「女性30代は男性40代よりも購入金額が高いと有意水準1%で主張できる。」というのは多重検定の問題を考慮できていない形になります。
ファミリーワイズエラー率(FWER)
問題点で行った
上記15通りの帰無仮説が全て本当だとして、少なくとも1つが第一種の誤りを起こす確率
0.13994...
をファミリーワイズエラー率(FWER)と呼びます。
これを考慮して正しい仮説検定を行うには、$FWER \leq \alpha$となるのが良いようです。
解決方法
Bonferroniの調整
$m$を仮説の数とし、個々のt検定の有意水準を$\alpha / m$とするのがBonferroni(ボンフェローニ)の補正です。
例について、これを適用すると、個々の有意水準は$0.01 / 15 = 0.000666...$とするのが良いようです。
確かにこれであればFWERは
1 - (1 - 0.000666...)^{15} = 0.00995346
となり、有意水準$\alpha$を下回ります。
Tukey-Kramer法
全ての2群同士を比較する検定で、それぞれ正規分布に従い、等分散である仮定が必要です。
各群のデータ数nは異なっていてもOK
- 帰無仮説 H0 : 対象の各2群間の平均値は等しい
- 対立仮説 H1 : 対象の2群の平均は異なる
$m$を仮説の数とし条件$i (i = 1, 2, ..., m)$におけるデータ数を$n_i$, 平均値を$\bar{Y}_i$郡内分散を$MS_e$とします。
q = \frac{\bar{Y}_i - \bar{Y}_j}{\sqrt{MS_{e} \cdot (\frac{1}{n_i} + \frac{1}{n_j}) \cdot \frac{1}{2}}} \quad (i \neq j)
この計算式で得られた値を$Q$分布に当て嵌め、設定した有意水準$\alpha$での値よりも$q$が大きければ、帰無仮説H0を棄却し、対立仮説 H1を採択します。
$Q$分布の形は仮説の数$m$と自由度(各群サンプル数 - 1の総和)によって決まります。
- RでのTukey-Kramer法
group1 <- rnorm(n=47, mean=856.4, sd = 340.2)
group2 <- rnorm(n=80, mean=870.2, sd = 363)
group3 <- rnorm(n=60, mean=880.8, sd = 349.5)
group4 <- rnorm(n=120, mean=955.8, sd = 346.3)
group5 <- rnorm(n=65, mean=819.2, sd = 360.8)
group6 <- rnorm(n=108, mean=907.3, sd = 355.3)
vx = c(group1, group2, group3, group4, group5, group6)
fx = factor(rep(c("20_man","20_woman","30_man","30_woman","40_man","40_woman"), c(47, 80, 60, 120, 65, 108)))
TukeyHSD(aov(vx~fx))
30代女性と40代男性はTukey-Kramer法でも、有意水準$\alpha = 0.05$の場合、H0を棄却し、H1を採択します。