ある変数に対して、この変数は線形の関係があるのか?
それを確認したいとき、回帰係数のt値を見ても良いし、相関係数の検定をしても良い。
■ 単回帰分析における係数のt値とは?
単回帰モデル:
$$
Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i
$$
このとき、回帰係数 $\hat{\beta}_1$ は以下で定義されます:
\hat{\beta}_1 = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^n (X_i - \bar{X})^2}
この分子は共分散、分母は $X$ の分散なので、以下のように表せます:
$$
\hat{\beta}_1 = r \cdot \frac{s_Y}{s_X}
$$
ここで:
- $r$:$X$と$Y$の標本相関係数
- $s_X, s_Y$:それぞれの標本標準偏差
■ 回帰係数の標準誤差の式
回帰係数 $\hat{\beta}_1$ の標準誤差は:
$$
\text{SE}(\hat{\beta}_1) = \frac{\hat{\sigma}}{\sqrt{\sum (X_i - \bar{X})^2}} = \frac{\hat{\sigma}}{s_X \sqrt{n - 1}}
$$
ここで:
- $\hat{\sigma}^2 = \frac{1}{n - 2} \sum (Y_i - \hat{Y}_i)^2$ は誤差分散の不偏推定値
- $\hat{\sigma} = \sqrt{(1 - r^2)} \cdot s_Y$
これを使うと:
$$
\text{SE}(\hat{\beta}_1) = \frac{\sqrt{1 - r^2} \cdot s_Y}{s_X \sqrt{n - 2}}
$$
■ 回帰係数のt統計量
t統計量は:
$$
t = \frac{\hat{\beta}_1}{\text{SE}(\hat{\beta}_1)} = \frac{r \cdot \frac{s_Y}{s_X}}{\frac{\sqrt{1 - r^2} \cdot s_Y}{s_X \sqrt{n - 2}}}
$$
分母分子で $s_Y / s_X$ が約分され、次のようになります:
$$
t = \frac{r}{\sqrt{1 - r^2}} \cdot \sqrt{n - 2}
$$
これはまさに、相関係数 $r$ に対するt検定の統計量と完全に一致します:
$$
t = \frac{r \sqrt{n - 2}}{\sqrt{1 - r^2}}
$$
■ t > 2 となるために必要な相関係数の値
サンプル数によって、統計的優位性があると言える相関係数の水準は異なる。
例えば $t=2$ の水準であれば、以下のように求められる相関係数の大きさがわかる。
t=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}>2 \rightarrow r>\frac{2}{\sqrt{n-s+4}}
片側2.5%(両側5%)の検定で優位性を確認するための相関係数の最小値は以下の通り。
n | t臨界値(自由度 $n-2$) | r が $t > 2$ となるための相関係数の最小値 |
---|---|---|
10 | 2.306(df=8) | 0.632 |
20 | 2.101(df=18) | 0.443 |
30 | 2.048(df=28) | 0.361 |
50 | 2.009(df=48) | 0.284 |
100 | 1.984(df=98) | 0.198 |
500 | 1.964(df=498) | 0.089 |
1000 | 1.962(df=998) | 0.063 |