記事の概要
studentの$t$検定は$t$分布の定義に合わせて正規分布の性質から導くことができるが、それと同値な検定を線形モデルのパラメータについての$F$検定からも導くことができる。その方法を詳述する。
問題設定
群1と群2はそれぞれ正規分布に従い、分散が等しいと仮定する。群1と群2の母集団からそれぞれサンプルサイズ$n_1, n_2$で観測したとする。
\begin{align}
y^{(1)}_1, ..., y^{(1)}_{n_1} &\sim N(\mu_1, \sigma^2) \quad i.i.d\\
y^{(2)}_1, ..., y^{(2)}_{n_2} &\sim N(\mu_2, \sigma^2) \quad i.i.d
\end{align}
$\mu_1, \mu_2$は群1,2の母平均で、$\sigma$は両群に共通する平均。
対応のないstudentの$t$検定(両側)は帰無仮説$\mu_1=\mu_2$についての検定であり、検定統計量は、
t = \frac{\left| \bar{y}_1 - \bar{y}_2 \right|}{\sqrt{\left(\frac{1}{n_1} + \frac{1}{n_2}\right) \frac{(n_1-1)S_1 + (n_2-1)S_2}{n_1+n_2-2}}}
である。ただし、$\bar{y}_1, \bar{y}_2$は群1,2の標本平均、$S_1, S_2$は群1,2の不偏分散であり
\displaylines{
\bar{y}_1 = \frac{1}{n_1} \sum_{i=1}^{n_1} y^{(1)}_i, \quad
\bar{y}_2 = \frac{1}{n_2}\sum_{j=1}^{n_2} y^{(2)}_j, \\
S_1 = \frac{1}{n_1 - 1} \sum_{i=1}^{n_1} (y^{(1)}_i - \bar{y}_1)^2, \quad
S_2 = \frac{1}{n_2 - 1} \sum_{j=1}^{n_2} (y^{(2)}_j - \bar{y}_2)^2
}
と計算される。
帰無仮説$\mu_1=\mu_2$が真の時、$\mu_1, \mu_2, \sigma^2$によらず検定統計量$t$は自由度$n_1+n_2-2$の$t$分布に従う。$\mu_1=\mu_2$について有意水準$\alpha$で検定する場合、帰無仮説棄却の条件は、
\frac{\left| \bar{y}_1 - \bar{y}_2 \right|}{\sqrt{\left(\frac{1}{n_1} + \frac{1}{n_2}\right) \frac{(n_1-1)S_1 + (n_2-1)S_2}{n_1+n_2-2}}} \ge t_{1-\frac{\alpha}{2}}^{(n_1+n_2-2)}
ただし$t_{1-\frac{\alpha}{2}}^{(n_1+n_2-2)}$は自由度$n_1+n_2-2$の$t$分布の上側$\frac{\alpha}{2}$の分位点を表している。
この条件と同値な帰無仮説$\mu_1=\mu_2$についての検定を線形モデルのパラメータについての$F$検定から導く。
回帰モデルを
\displaylines{
\begin{align}
y^{(1)}_i &= \beta_0 + \varepsilon_i^{(1)}, \quad i=1,...,n_1 \\
y^{(2)}_j &= \beta_0 + \beta_1 + \varepsilon_j^{(2)}, \quad j=1,...,n_2\\
\end{align}\\
\varepsilon_1^{(1)},...,\varepsilon_{n_1}^{(1)}, \varepsilon_1^{(2)}, ..., \varepsilon_{n_2}^{(2)} \sim N(0, \sigma^2) \quad i.i.d.
}
とする。これを行列で表現するために、
\boldsymbol{y}_1 = \begin{bmatrix}
y^{(1)}_1 \\
\vdots \\
y^{(1)}_{n_1} \\
\end{bmatrix}, \quad
\boldsymbol{y}_2 = \begin{bmatrix}
y^{(2)}_1 \\
\vdots \\
y^{(2)}_{n_2} \\
\end{bmatrix}, \quad
\boldsymbol{y} = \begin{bmatrix}
\boldsymbol{y}_1 \\
\boldsymbol{y}_2
\end{bmatrix}, \quad
\boldsymbol{X} = \begin{bmatrix}
\boldsymbol{1}_{n_1} & \boldsymbol{0}_{n_1} \\
\boldsymbol{1}_{n_2} & \boldsymbol{1}_{n_2} \\
\end{bmatrix}, \quad
\boldsymbol{\beta} = \begin{bmatrix}
\beta_0 \\
\beta_1
\end{bmatrix}
とすれば、回帰モデルは、
\boldsymbol{y} = \boldsymbol{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon}, \quad \boldsymbol{\varepsilon} \sim N(\boldsymbol{0}_{n_1+n_2}, \sigma^2 I_{n_1+n_2})
と表せる。ただし、$\boldsymbol{1}_n, \boldsymbol{0}_n$は要素が全て$0, 1$の$n$次元の列ベクトルを表し、$I_n$は$n \times n$の単位行列を表すとする。
このとき、
\begin{align}
y^{(1)}_1, ..., y^{(1)}_{n_1} &\sim N(\beta_0, \sigma^2) \quad i.i.d\\
y^{(2)}_1, ..., y^{(2)}_{n_2} &\sim N(\beta_0+\beta_1, \sigma^2) \quad i.i.d
\end{align}
であるため、検定したい帰無仮説$\mu_1=\mu_2$は$\beta_1=0$と同値である。つまり、帰無仮説$\mu_1=\mu_2$の検定は、
\boldsymbol{H} = \begin{bmatrix}
0 \\
1
\end{bmatrix}
として、$\boldsymbol{\beta}$について線形制約$\boldsymbol{H}^T \boldsymbol{\beta}=0$の成立を帰無仮説とする検定と同値である。
具体的な導出
一般論として$\boldsymbol{y} = \boldsymbol{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon}$の$\boldsymbol{\beta}$についての線形制約
\boldsymbol{H}^T \boldsymbol{\beta}=\boldsymbol{d}, \quad \boldsymbol{H} \in \mathbb{R}^{p \times r}, \quad \boldsymbol{\beta} \in \mathbb{R}^{p}, \quad \boldsymbol{d} \in \mathbb{R}^{r}
の成立を帰無仮説とする$F$検定の検定統計量は、
F = \frac{(\boldsymbol{H}^T \hat{\boldsymbol{\beta}} - \boldsymbol{d})^T (\boldsymbol{H}^T (\boldsymbol{X}^T \boldsymbol{X})^{-1} \boldsymbol{H})^{-1} (\boldsymbol{H}^T \hat{\boldsymbol{\beta}} - \boldsymbol{d}) / r}{\boldsymbol{y}^T (I_{n} - \boldsymbol{X}(\boldsymbol{X}^T \boldsymbol{X})^{-1}\boldsymbol{X}^T) \boldsymbol{y} / (n-p)}
である。ただし、$\hat{\boldsymbol{\beta}} = (\boldsymbol{X}^T \boldsymbol{X})^{-1}\boldsymbol{X}^T \boldsymbol{y}$で、$\boldsymbol{\beta}$の最小二乗解。
帰無仮説$\boldsymbol{H}^T \boldsymbol{\beta}=\boldsymbol{d}$が真ならば、この$F$は自由度$(r, n-p)$の$F$分布に従う。$\boldsymbol{H}^T \boldsymbol{\beta}=\boldsymbol{d}$について有意水準$\alpha$で検定する場合、帰無仮説棄却の条件は、
\frac{(\boldsymbol{H}^T \hat{\boldsymbol{\beta}} - \boldsymbol{d})^T (\boldsymbol{H}^T (\boldsymbol{X}^T \boldsymbol{X})^{-1} \boldsymbol{H})^{-1} (\boldsymbol{H}^T \hat{\boldsymbol{\beta}} - \boldsymbol{d})}{\boldsymbol{y}^T (I_{n} - \boldsymbol{X}(\boldsymbol{X}^T \boldsymbol{X})^{-1}\boldsymbol{X}^T) \boldsymbol{y}} \ge F^{(r, n-p)}_{1-\alpha}
である。ただし、$F^{(r, n-p)}_{1-\alpha}$は自由度$(r, n-p)$の$F$分布の上側$\alpha$の分位点を表す。
これを今回の線形モデル
\boldsymbol{y}_1 = \begin{bmatrix}
y^{(1)}_1 \\
\vdots \\
y^{(1)}_{n_1} \\
\end{bmatrix}, \quad
\boldsymbol{y}_2 = \begin{bmatrix}
y^{(2)}_1 \\
\vdots \\
y^{(2)}_{n_2} \\
\end{bmatrix}, \quad
\boldsymbol{y} = \begin{bmatrix}
\boldsymbol{y}_1 \\
\boldsymbol{y}_2
\end{bmatrix}, \quad
\boldsymbol{X} = \begin{bmatrix}
\boldsymbol{1}_{n_1} & \boldsymbol{0}_{n_1} \\
\boldsymbol{1}_{n_2} & \boldsymbol{1}_{n_2} \\
\end{bmatrix}, \quad
\boldsymbol{\beta} = \begin{bmatrix}
\beta_0 \\
\beta_1
\end{bmatrix}
と線形制約
\boldsymbol{H}^T \boldsymbol{\beta} = d, \quad
\boldsymbol{H} = \begin{bmatrix}
0 \\
1
\end{bmatrix}, \quad d=0
に対して具体的に計算する。まず、$\boldsymbol{1}_n^T \boldsymbol{1}_n = n$なので、
\begin{align}
(\boldsymbol{X}^T \boldsymbol{X})^{-1} = \begin{bmatrix}
n_1 + n_2 & n_2 \\
n_2 & n_2
\end{bmatrix}^{-1} = \begin{bmatrix}
\frac{1}{n_1} & -\frac{1}{n_1} \\
-\frac{1}{n_1} & \frac{1}{n_1} + \frac{1}{n_2}
\end{bmatrix}
\end{align}
となる。また、
\boldsymbol{1}_n^T \boldsymbol{y}_1 = \sum_{i=1}^{n_1} y_{j}^{(1)} = n_1 \bar{y}_1
であるから、
\begin{align}
\hat{\boldsymbol{\beta}} &= (\boldsymbol{X}^T \boldsymbol{X})^{-1}\boldsymbol{X}^T \boldsymbol{y} \\
&= \begin{bmatrix}
\frac{1}{n_1} & -\frac{1}{n_1} \\
-\frac{1}{n_1} & \frac{1}{n_1} + \frac{1}{n_2}
\end{bmatrix} \begin{bmatrix}
n_1 \bar{y}_1 + n_2 \bar{y}_2 \\
n_2 \bar{y}_2
\end{bmatrix}
&= \begin{bmatrix}
\bar{y}_1 \\
\bar{y}_2 - \bar{y}_1
\end{bmatrix}
\end{align}
となる。より、$\boldsymbol{H}^T \hat{\boldsymbol{\beta}} - d = \bar{y}_2 - \bar{y}_1$である。
\begin{align}
(\boldsymbol{H}^T (\boldsymbol{X}^T \boldsymbol{X})^{-1} \boldsymbol{H})^{-1} &= \left( \begin{bmatrix}
0 & 1
\end{bmatrix}
\begin{bmatrix}
\frac{1}{n_1} & -\frac{1}{n_1} \\
-\frac{1}{n_1} & \frac{1}{n_1} + \frac{1}{n_2}
\end{bmatrix}
\begin{bmatrix}
0 \\
1
\end{bmatrix} \right)^{-1} = \frac{1}{\frac{1}{n_1} + \frac{1}{n_2}}
\end{align}
なので、$F$検定統計量の分子は、
(\boldsymbol{H}^T \hat{\boldsymbol{\beta}} - \boldsymbol{d})^T (\boldsymbol{H}^T (\boldsymbol{X}^T \boldsymbol{X})^{-1} \boldsymbol{H})^{-1} (\boldsymbol{H}^T \hat{\boldsymbol{\beta}} - \boldsymbol{d}) = \frac{(\bar{y}_2 - \bar{y}_1)^2}{\frac{1}{n_1} + \frac{1}{n_2}}
となる。
次に、分母について、
\begin{align}
\boldsymbol{X} (\boldsymbol{X}^T \boldsymbol{X})^{-1} \boldsymbol{X}^T &= \begin{bmatrix}
\boldsymbol{1}_{n_1} & \boldsymbol{0}_{n_1} \\
\boldsymbol{1}_{n_2} & \boldsymbol{1}_{n_2} \\
\end{bmatrix}
\begin{bmatrix}
\frac{1}{n_1} & -\frac{1}{n_1} \\
-\frac{1}{n_1} & \frac{1}{n_1} + \frac{1}{n_2}
\end{bmatrix}
\begin{bmatrix}
\boldsymbol{1}_{n_1}^T & \boldsymbol{1}_{n_2}^T \\
\boldsymbol{0}_{n_1}^T & \boldsymbol{1}_{n_2}^T \\
\end{bmatrix} \\
&=
\begin{bmatrix}
\boldsymbol{1}_{n_1} & \boldsymbol{0}_{n_1} \\
\boldsymbol{1}_{n_2} & \boldsymbol{1}_{n_2} \\
\end{bmatrix}
\begin{bmatrix}
\frac{1}{n_1} \boldsymbol{1}_{n_1}^T & \boldsymbol{0}_{n_2}^T \\
-\frac{1}{n_1} \boldsymbol{1}_{n_1}^T & \frac{1}{n_2} \boldsymbol{1}_{n_2}^T \\
\end{bmatrix} \\
&=
\begin{bmatrix}
\frac{1}{n_1} \boldsymbol{1}_{n_1} \boldsymbol{1}_{n_1}^T & \boldsymbol{O}_{n_1, n_2} \\
\boldsymbol{O}_{n_2, n_1} & \frac{1}{n_2} \boldsymbol{1}_{n_2} \boldsymbol{1}_{n_2}^T \\
\end{bmatrix}
\end{align}
であるから、
\begin{align}
&\boldsymbol{y}^T \left( I_{n_1 + n_2} - \boldsymbol{X} (\boldsymbol{X}^T \boldsymbol{X})^{-1} \boldsymbol{X}^T \right) \boldsymbol{y} \\
&= \begin{bmatrix}
\boldsymbol{y}_1^T &
\boldsymbol{y}_2^T
\end{bmatrix}
\begin{bmatrix}
\boldsymbol{y}_1 \\
\boldsymbol{y}_2
\end{bmatrix}
- \begin{bmatrix}
\boldsymbol{y}_1^T &
\boldsymbol{y}_2^T
\end{bmatrix}
\begin{bmatrix}
\frac{1}{n_1} \boldsymbol{1}_{n_1} \boldsymbol{1}_{n_1}^T & \boldsymbol{O}_{n_1, n_2} \\
\boldsymbol{O}_{n_2, n_1} & \frac{1}{n_2} \boldsymbol{1}_{n_2} \boldsymbol{1}_{n_2}^T \\
\end{bmatrix}
\begin{bmatrix}
\boldsymbol{y}_1 \\
\boldsymbol{y}_2
\end{bmatrix} \\
&= \boldsymbol{y}_1^T \boldsymbol{y}_1 + \boldsymbol{y}_2^T \boldsymbol{y}_2 - \frac{1}{n_1} \boldsymbol{y}_1^T \boldsymbol{1}_{n_1} \boldsymbol{1}_{n_1}^T \boldsymbol{y}_1 - \frac{1}{n_2} \boldsymbol{y}_2^T \boldsymbol{1}_{n_1} \boldsymbol{1}_{n_1}^T \boldsymbol{y}_2\\
&= \sum_{i=1}^{n_1} \left\{y_i^{(1)}\right\}^2 + \sum_{j=1}^{n_2} \left\{y_j^{(2)}\right\}^2 - n_1 \bar{y}_1^2 - n_2 \bar{y}_2^2 \\
&= (n_1 - 1) S_1 + (n_2 - 1) S_2
\end{align}
となる。$F$検定統計量の$n,p,r$は$n=n_1+n_2, p=2, r=1$に対応するため、$F$検定統計量は、
F = \frac{(\bar{y}_2 - \bar{y}_1)^2}{\left( \frac{1}{n_1} + \frac{1}{n_2} \right) \frac{(n_1 - 1) S_1 + (n_2 - 1) S_2}{n_1+n_2-2}}
になる。帰無仮説$\beta_1 = 0$が棄却される条件は、
\frac{(\bar{y}_2 - \bar{y}_1)^2}{\left( \frac{1}{n_1} + \frac{1}{n_2} \right) \frac{(n_1 - 1) S_1 + (n_2 - 1) S_2}{n_1+n_2-2}} \ge F^{(1, n_1+n_2-2)}_{1-\alpha}
である。自由度$n_1+n_2-2$のstudentの$t$分布に従う確率変数を2乗した確率変数は自由度$(1, n_1+n_2-2)$の$F$分布に従うため、
\left( t^{n_1+n_2-2}_{1-\frac{\alpha}{2}} \right)^2 = F^{(1, n_1+n_2-2)}_{1-\alpha}
となる。従って、帰無仮説$\beta_1 = 0$が棄却される$F$検定の条件は、
\frac{\left| \bar{y}_2 - \bar{y}_1 \right|}{\sqrt{\left( \frac{1}{n_1} + \frac{1}{n_2} \right) \frac{(n_1 - 1) S_1 + (n_2 - 1) S_2}{n_1+n_2-2}}} \ge t^{n_1+n_2-2}_{1-\frac{\alpha}{2}}
である。これは、一般的に知られる対応のないstudentの$t$検定(両側)の帰無仮説$\mu_1=\mu_2$の棄却の条件と等しい。