問題提起
3群以上の集団の平均に差があることを検定したい時、一般的に以下の手順を取るように書かれている。
①分散分析で「全ての集団で平均が等しい」という帰無仮説を棄却する
②多重比較でどの集団が違うかを検定する
しかし①で帰無仮説を棄却した際に言えるのは「少なくともどこか1つの集団に差がある」までで、どの集団が違うのか?はわからない。だから②でどのペアに差があるのか見ることになる。
いきなり②から始めたらいけないのだろうか?①の手順を踏む意味はあるのだろうか?
実際にANOVAで差があるけどTukeyで差が出ない、またはANOVAで差がないけど一応Tukeyしたら差があった、と言う経験があるので疑問に思い調べてみることにした。
結論
ANOVAと多重比較検定は検定の目的が異なるので、結果に齟齬が出るのは当たり前。
比較する群間で何かしら仮説がある場合は、ANOVAは飛ばしてよい。
比較検定をしている時点で何らの仮説はあるだろうから、多くの場合でANOVAは飛ばしてよい。
いきなり多重比較するか、薬の投与量と検査値みたいな関係性も含めて見たいなら回帰したらいい。
じゃあANOVAって存在価値ないのでは?
実践的な意味ではそうかもしれない。でも教育的には重要な枠組みだと思う。
one-wayANOVAの場合、$j=1,2,...$の群に対して
$Y_ij=\mu+\gamma_j+\epsilon_ij$
$\mu$:全体平均
$\gamma_j$:群ごとの平均の差
$\epsilon_ij$:誤差
を仮定し、帰無仮説$H_0:\gamma_1=\gamma_2=...$を検定している。
これが棄却されれば群ごとの平均に差はなかったってこと。
つまりモデル式の整合性を確認しているようなイメージ。
回帰の形で表す場合にその項に意味があるか?みたいな。
多重比較という目的においては不要だが、ANOVA=群をダミー変数化した回帰のF検定と思えば線形回帰の基礎となる形なので、勉強する価値は十分ある。
分散分析で有意になり多重比較で有意差がない確率ってどれくらいだろうか?
ANOVAでは5%で有意差ありと判断するので、「分散分析で有意差が出る」確率は5%固定。(当たり前)
一方多重比較はTypeⅠerrorを下げるため補正を掛けるので、「多重比較で有意差が出る」確率は5%より厳しい基準で判断することになる。
比較する群が増えるほど多重比較の補正がかかるので、「分散分析で有意差あり・多重比較で有意差なし」と矛盾が生じる確率は群に比例して大きくなると言える。
ANOVAせずにいきなり多重比較をしていれば気付けたはずの差を、事前ANOVAのせいで見落としてしまう確率は、群が多いほど高くなる。
ANOVA=群をダミー変数化した線形回帰のF検定
ANOVA
例として3群のone-way ANOVAを考える。
各群の試行回数を$n_j$として、
\begin{align}
Y_{ij}&=\mu+\tau_j+\epsilon_{ij}\\
j&=1,2,3\\
\epsilon_{ij}&\sim N(0,\sigma^2)\\
\sum_{j=1}^3\tau_j&=0\\
\sum_{j=1}^3n_j&=N\\
\end{align}
$\mu$は3群の平均の平均、$\tau_j$は$\mu$からの群ごとのズレを表す。
帰無仮説は3群の平均が等しくなることなので、$H_0:\tau_1=\tau_2=\tau_3=0$
ANOVAのF値は、群間平均平方和を、残差平均平方和で割った値と定義されている。
$\bar Y$をグループを跨いだ全体平均、$\bar Y_j$を各群内平均とすると
群間平均平方和は$\sum_{j=1}^3\sum_{i=1}^{n_j}(\bar Y_j-\bar Y)^2$、自由度$j-1$
残差平均平方和は$\sum_{j=1}^3\sum_{i=1}^{n_j}(Y_{ij}-\bar Y_j)^2$、自由度$N-j$
\begin{align}
F&=\frac{群間平均平方和}{残差平均平方和}\\
&=\frac{\frac{1}{j-1}\sum_{j=1}^3\sum_{i=1}^{n_j}(\bar Y_j-\bar Y)^2}{\frac{1}{N-j}\sum_{j=1}^3\sum_{i=1}^{n_j}(Y_{ij}-\bar Y_j)^2}\\
&=\frac{各群の平均が全体平均からどれくらい離れているか}{各サンプルが郡内平均からどれくらい離れているか}\\
\end{align}
線形回帰のF検定
次にこのF値が、群をダミー変数化した回帰のFと一致することを示す。
ダミー変数$D_{i2}、D_{i3}$を作り、$j=1$群を基準にして群間の平均のズレをダミー項に押し付ける形にすると
\begin{align}
Y_{ij}&=\beta_1+\beta_2D_{i2}+\beta_3D_{i3}+\epsilon_{ij}\\
j&=1,2,3\\
\epsilon_{ij}&\sim N(0,\sigma^2)\\
\sum_{j=1}^3n_j&=N\\
\end{align}
ここでの$\beta_1$は$j=1$群の平均を、$\beta_2$は$j=2$群の平均と$j=1$群の平均のズレである。
サンプル$Y_{ij}$が$j=1$に属するなら、$D_{i2}=0、D_{i3}=0$となり$Y_{ij}=\beta_1+\epsilon_{ij}$である。
上記設定において帰無仮説(3群の平均が等しい)は、$H_0:\beta_2=\beta_3=0$
つまりダミー項が全て0のモデル($Y_{ij}=\beta_1+\epsilon_{ij}$)となり、対立仮説(3群の平均が等しくない)はフルモデル($Y_{ij}=\beta_1+\beta_2D_{i2}+\beta_3D_{i3}+\epsilon_{ij}$)の優劣を比較することになる。
2つのモデルを比較するF統計量は、帰無仮説モデルの残差平方和$RSS_0$と制約なしモデルの残差平方和$RSS_1$を用いて以下で定義される。
\begin{align}
F=\frac{\frac{RSS_0-RSS_1}{j-1}}{\frac{RSS_1}{N-j}}
\end{align}
帰無仮説モデルの残差平方和$RSS_0$を求める。
残差は
\begin{align}
\epsilon_{ij}=Y_{ij}-\beta_1
\end{align}
なので、その平方和は
\begin{align}
\sum_{j=1}^3\sum_{i=1}^{n_j}\epsilon_{ij}^2=\sum_{j=1}^3\sum_{i=1}^{n_j}(Y_{ij}-\beta_1)^2
\end{align}
$\beta_0$のOLSは
\begin{align}
\frac{\partial}
{\partial\beta_1}\sum_{j=1}^3\sum_{i=1}^{n_j}\epsilon_{ij}^2&=-2\sum_{j=1}^3\sum_{i=1}^{n_j}(Y_{ij}-\beta_1)\\
0&=\sum_{j=1}^3\sum_{i=1}^{n_j}(Y_{ij}-\beta_1)\\
0&=\sum_{j=1}^3\sum_{i=1}^{n_j}Y_{ij}-N\beta_1\\
\hat\beta_1&=\frac{1}{N}\sum_{j=1}^3\sum_{i=1}^{n_j}Y_{ij}\\
&=\bar Y
\end{align}
帰無仮説下の$\beta_0$推定量は全体平均である。
よって帰無仮説モデルの残差平方和$RSS_0$は
\begin{align}
\sum_{j=1}^3\sum_{i=1}^{n_j}\epsilon_{ij}^2=\sum_{j=1}^3\sum_{i=1}^{n_j}(Y_{ij}-\bar Y)^2
\end{align}
次に対立仮説下での残差平方和$RSS_1$は、例えばj=2のとき$D_{2j}=1、D_{3j}=3$なので残差は
\begin{align}
Y_{ij}&=\beta_1+\beta_2D_{i2}+\beta_3D_{i3}+\epsilon_{ij}\\
\epsilon_{i2}&=Y_{i2}-(\beta_1+\beta_2)
\end{align}
なので、その平方和は
\begin{align}
\sum_{i=1}^{n_2}\epsilon_{i2}^2=\sum_{i=1}^{n_2}\biggl(Y_{i2}-(\beta_1+\beta_2)\biggl)^2
\end{align}
j=2のとき、つまり$Y_{i2}$の推定値$(\beta_1+\beta_2)$のOLSは
\begin{align}
\frac{\partial}
{\partial(\beta_1+\beta_2)}\sum_{i=1}^{n_2}\epsilon_{i2}^2&=-2\sum_{i=1}^{n_2}\biggl(Y_{i2}-(\beta_1+\beta_2)\biggl)\\
0&=\sum_{i=1}^{n_2}\biggl(Y_{i2}-(\beta_1+\beta_2)\biggl)\\
0&=\sum_{i=1}^{n_2}Y_{i2}-n_2(\beta_1+\beta_2)\\
\hat\beta_1+\hat\beta_2&=\frac{1}{n_2}\sum_{i=1}^{n_2}Y_{i2}\\
&=\bar Y_2
\end{align}
j=2の時の$(\beta_1+\beta_2)$の推定量はj=2群の平均である。j=3の時も同様。
よって対立仮説(フルモデル)の残差平方和$RSS_1$は
\begin{align}
\sum_{j=1}^3\sum_{i=1}^{n_j}\epsilon_{ij}^2=\sum_{j=1}^3\sum_{i=1}^{n_j}(Y_{ij}-\bar Y_{j})^2
\end{align}
先に$RSS_0$を変形しておく
\begin{align}
RSS_0&=\sum_{j=1}^3\sum_{i=1}^{n_j}(Y_{ij}-\bar Y)^2\\
&=\sum_{j=1}^3\sum_{i=1}^{n_j}\biggl((Y_{ij}-\bar Y_j)+(\bar Y_j-\bar Y)\biggl)^2\\
&=\sum_{j=1}^3\sum_{i=1}^{n_j}\biggl((Y_{ij}-\bar Y_j)^2+2(Y_{ij}-\bar Y_j)(\bar Y_j-\bar Y)+(\bar Y_j-\bar Y)^2\biggl)^2\\
\end{align}
第2項は
\begin{align}
\sum_{j=1}^3\sum_{i=1}^{n_j}(Y_{ij}-\bar Y_j)&=\sum_{j=1}^3\sum_{i=1}^{n_j}Y_{ij}-\sum_{j=1}^3\sum_{i=1}^{n_j}\bar Y_j\\
&=\sum_{j=1}^3n_j\bar Y_j-\sum_{j=1}^3n_j\bar Y_j\\
&=0
\end{align}
なので
\begin{align}
RSS_0&=\sum_{j=1}^3\sum_{i=1}^{n_j}(Y_{ij}-\bar Y_j)^2+\sum_{j=1}^3\sum_{i=1}^{n_j}(\bar Y_j-\bar Y)^2\\
\end{align}
F統計量の分子は
\begin{align}
RSS_0-RSS_1&=\sum_{j=1}^3\sum_{i=1}^{n_j}(Y_{ij}-\bar Y_j)^2+\sum_{j=1}^3\sum_{i=1}^{n_j}(\bar Y_j-\bar Y)^2-\sum_{j=1}^3\sum_{i=1}^{n_j}(Y_{ij}-\bar Y_{j})^2\\
&=\sum_{j=1}^3\sum_{i=1}^{n_j}(\bar Y_j-\bar Y)^2\\
F&=\frac{\frac{RSS_0-RSS_1}{j-1}}{\frac{RSS_1}{N-j}}\\
&=\frac{\frac{1}{j-1}\sum_{j=1}^3\sum_{i=1}^{n_j}(\bar Y_j-\bar Y)^2}{\frac{1}{N-j}\sum_{j=1}^3\sum_{i=1}^{n_j}(Y_{ij}-\bar Y_{j})^2}
\end{align}
ANOVAと一致した。
参考にさせていただいたサイト
私のための統計処理 ー多重比較検定
分散分析の下位に多重検定を置くな
分散分析で有意になり多重比較で有意差がない確率
記事を書くに至ったきっかけ
2024年統計検定1級の医薬生物学問4、何がわからないのか言語化できないレベルのわからなさなので誰か教えてほしいです。