分散分析
分散分析は各要因の母平均の差を検定する。要因の平方和および残差の平方和がカイ二乗分布に従うことを利用し、両者をそれぞれの自由度で除算した値を分母分子に据えた値がF分布に従うことを利用して検定を行う。
要因についてA、B、Cの3種類がある状況を考える。例えば肥料A、肥料B、肥料Cがあり、それぞれの肥料の効果に差があることを検定したい。肥料はそれぞれ反復回数$n_A$、$n_B$、$n_C$ 回実験されたとする。
肥料Aについて、その母平均を $\mu_A$ とすると、
$$y_{A,j} = \mu_A + \epsilon_{A,j}$$
というモデルを想定することができる。
分散分析における信頼区間
$\epsilon_{A,j}$ が独立な正規分布に従うことを仮定する。この$\epsilon_{A,j}$ は$N(0, \sigma^2)$に従うことから、
$$\frac{\bar{x} - \mu_A}{\sqrt{\sigma^2/n}}$$
が正規分布に従うことを用いて信頼区間を構成できる。例えば$\alpha=0.05$の両側検定であれば、
$$\bar{x} - z_{0.025}\sqrt{\sigma^2/n} < \mu_A < \bar{x} + z_{0.025}\sqrt{\sigma^2/n}$$
である。ここで $n$ は肥料Aを用いた標本の数で、前述の例では$n_A$にあたる。
実際には$\sigma$は未知パラメータなので、残差によって推定する必要がある。母分散が未知の場合はz分布ではなくt分布を用いて、信頼区間は以下のようになる。
$$\bar{x} - t_{0.025}(df_E)\sqrt{V_E/n_A} < \mu_A < \bar{x} + t_{0.025}(df_E)\sqrt{V_E/n_A}$$
$V_E$は残差の平均平方(母分散の推定値)、$df_E$は残差の自由度である。
順序立てていけばそれはそうなのだが、結果的には要因の標本数と残差の自由度が混在するややこしい式になってしまう。とりわけ残差の平均平方を要因の標本数で除算する操作はなんとなく直感に反する。
仮定
前述の導出では残差に以下の仮定をおいている。
- 残差は独立
- 残差は正規分布に従う
- 残差は全ての群において分散が等しい
3つ目の仮定が破られることは現実的にはいかにもありそうなことのように思える。上の例では、肥料Bは肥料Aより分散が大きくなる、というような状況である。
等分散性が守られない場合に適用できる手法として、WelchのANOVAというものがあるらしい。ざっくりと調べた結果だが、各群について群平均を群分散の逆数で重みづけて分散の差による影響を緩和するというものである。