はじまり
$X,Y$の2つの確率変数がある。
$X,Y$には関係性がある。
$n$個のサンプル$X_i,Y_i(i \in 1 \cdots n)$を取ってくる
原理
$X,Y$には原理的に
Y= \beta_1 + \beta_2 X + \epsilon
の関係があったとする。
ここで、$\epsilon$は外乱項・誤差項・撹乱項である。確率変数でもある。
ここで、一つサンプルする
Y_i= \beta_1 + \beta_2 X_i + \epsilon_i
次の3つの仮定を入れる
(a)$E[\epsilon_i] = 0 (i \in 1 \cdots n)$
ここでの平均は確率変数の平均である。標本内平均ではない
(b) $V[\epsilon_i] = \sigma^2$
(c) $Cov(\epsilon_i , \epsilon_j) = 0$
誤差項はサンプルごとに相関がない
次に
$X_i$がまず定まったと考える。
誤差が乗って$Y_i$が決まる。
\begin{eqnarray}
E[Y_i] &=& E[\beta_1 + \beta_2 X_i + \epsilon_i]\\
&=& \beta_1 + \beta_2 E[X_i] + E[\epsilon_i]\\
&=&\beta_1 + \beta_2 X_i
\end{eqnarray}
ここで、$E[X_i] = X_i$としているが、$X_i$が定まったうえで$Y_i$を考えているためである。
本来はこう書くべきである
\begin{eqnarray}
E[Y_i|X_i] &=& E[\beta_1 + \beta_2 X_i + \epsilon_i]\\
&=& \beta_1 + \beta_2 E[X_i|X_i] + E[\epsilon_i|X_i]\\
&=&\beta_1 + \beta_2 X_i
\end{eqnarray}
回帰分析においては$X$を確率変数としては扱わないみたいだ。
誤差項は
\epsilon_i = Y_i - (\beta_1 + \beta_2 X_i )
である。二乗和を$S$とする。
\begin{eqnarray}
S &=& \Sigma \epsilon_i^2\\
&=& \Sigma (Y_i - (\beta_1 + \beta_2 X_i ))^2
\end{eqnarray}
これを最小化するように、$\beta_1,\beta_2$の推定を行う
\begin{eqnarray}
\frac{\partial S}{\partial \beta_1 } &=& \frac{\partial }{\partial \beta_1 } \Sigma (Y_i - (\beta_1 + \beta_2 X_i))^2\\
&=&2 \Sigma(Y_i - (\beta_1 + \beta_2 X_i) ) (-1)\\
&=&-2 \Sigma(Y_i - (\beta_1 + \beta_2 X_i) )\\
\frac{\partial S}{\partial \beta_2 } &=& \frac{\partial }{\partial \beta_2 } \Sigma (Y_i - (\beta_1 + \beta_2 X_i))^2\\
&=&2 \Sigma(Y_i - (\beta_1 + \beta_2 X_i) ) (-X_i)\\
&=& -2 \Sigma(X_i Y_i -\beta_1 X_i - \beta_2 X_i^2)
\end{eqnarray}
$S$が最小の時$\beta_1,\beta_2$の偏微分の結果は0であるはずである。(0でないとすれば、Sは最小ではない)
\begin{eqnarray}
\begin{pmatrix}
\Sigma Y_i \\
\Sigma X_i Y_i \\
\end{pmatrix}
=
\begin{pmatrix}
n & \Sigma X_i \\
\Sigma X_i & \Sigma X_i^2 \\
\end{pmatrix}
\begin{pmatrix}
\hat \beta_1 \\
\hat \beta_2 \\
\end{pmatrix}\\
\therefore
\begin{pmatrix}
\hat \beta_1 \\
\hat \beta_2 \\
\end{pmatrix}
=
\frac{1}{n \Sigma X_i^2 -(\Sigma X_i)^2}
\begin{pmatrix}
\Sigma X_i^2 & -\Sigma X_i \\
-\Sigma X_i & n \\
\end{pmatrix}
\begin{pmatrix}
\Sigma Y_i \\
\Sigma X_i Y_i \\
\end{pmatrix}
\end{eqnarray}
ここで、標本平均を導入する
\begin{eqnarray}
\bar X &= \frac{\Sigma X_i }{n} \\
\bar Y &= \frac{\Sigma Y_i }{n}
\end{eqnarray}
分散を求めるときの展開
\begin{eqnarray}
\Sigma (X_i - \bar X)^2 &=& \Sigma X_i^2 - n(\bar X)^2\\
\therefore \Sigma X_i^2 &=& \Sigma (X_i - \bar X)^2 + n(\bar X)^2 \\
\Sigma (X_i - \bar X) (Y_i - \bar Y) &=& \Sigma X_i Y_i - n \bar X \bar Y \\
\therefore \Sigma X_i Y_i &=& \Sigma (X_i - \bar X) (Y_i - \bar Y) + n \bar X \bar Y
\end{eqnarray}
これを使って式を変形する
\begin{eqnarray}
\begin{pmatrix}
\hat \beta_1 \\
\hat \beta_2 \\
\end{pmatrix}
&=&
\frac{1}{n \Sigma X_i^2 -(\Sigma X_i)^2}
\begin{pmatrix}
\Sigma X_i^2 & -\Sigma X_i \\
-\Sigma X_i & n \\
\end{pmatrix}
\begin{pmatrix}
\Sigma Y_i \\
\Sigma X_i Y_i \\
\end{pmatrix}\\
&=&
\frac{1}{n ( \Sigma (X_i - \bar X)^2 + n(\bar X)^2 )-(\Sigma X_i)^2}
\begin{pmatrix}
\Sigma X_i^2 & -\Sigma X_i \\
-\Sigma X_i & n \\
\end{pmatrix}
\begin{pmatrix}
\Sigma Y_i \\
\Sigma X_i Y_i \\
\end{pmatrix}\\
&=&
\frac{1}{n \Sigma (X_i - \bar X)^2 }
\begin{pmatrix}
\Sigma X_i^2 \Sigma Y_i -\Sigma X_i \Sigma X_i Y_i\\
-\Sigma X_i \Sigma Y_i + n \Sigma X_i Y_i \\
\end{pmatrix}\\
&=&
\frac{1}{n \Sigma (X_i - \bar X)^2 }
\begin{pmatrix}
( \Sigma (X_i - \bar X)^2 + n(\bar X)^2) n\bar Y - n \bar X \Sigma X_i Y_i\\
-n^2 \bar X \bar Y + n \Sigma X_i Y_i \\
\end{pmatrix}\\
&=&
\frac{1}{n \Sigma (X_i - \bar X)^2 }
\begin{pmatrix}
( \Sigma (X_i - \bar X)^2 + n(\bar X)^2) n\bar Y - n \bar X ( \Sigma (X_i - \bar X) (Y_i - \bar Y) + n \bar X \bar Y )\\
-n^2 \bar X \bar Y + n ( \Sigma (X_i - \bar X) (Y_i - \bar Y) + n \bar X \bar Y ) \\
\end{pmatrix} \\
&=&
\frac{1}{n \Sigma (X_i - \bar X)^2 }
\begin{pmatrix}
( \Sigma (X_i - \bar X)^2 ) n\bar Y - n \bar X ( \Sigma (X_i - \bar X) (Y_i - \bar Y) )\\
n \Sigma (X_i - \bar X) (Y_i - \bar Y) \\
\end{pmatrix} \\
&=&
\begin{pmatrix}
\bar Y - \bar X \frac{ \Sigma (X_i - \bar X) (Y_i - \bar Y)}{ \Sigma (X_i - \bar X)^2 } \\
\frac{ \Sigma (X_i - \bar X) (Y_i - \bar Y)}{ \Sigma (X_i - \bar X)^2 } \\
\end{pmatrix} \\
\end{eqnarray}
このように、$\hat \beta_1,\hat \beta_2$を定めれば$S = \Sigma (Y_i - (\beta_1 + \beta_2 X_i ))^2$を最小化できる。
\hat \beta_1 = \bar Y - \bar X \hat \beta_2
の関係がある。
回帰係数まとめ
\begin{eqnarray}
\hat \beta_1 &= \bar Y - \bar X \hat \beta_2 \\
\hat \beta_2 &= \frac{ \Sigma (X_i - \bar X) (Y_i - \bar Y)}{ \Sigma (X_i - \bar X)^2 }
\end{eqnarray}
ずれの評価
\hat Y = \hat \beta_1 + \hat \beta_2 X
として、これを標本回帰直線と呼ぶ。$Y,X$は確率変数を使う。
回帰値とのずれを$\hat e $として
\hat e_i = Y_i - \hat Y_i
とする。
\begin{eqnarray}
\Sigma \hat e_i &=& \Sigma Y_i - \Sigma ( \hat \beta_1 + \hat \beta_2 X_i) \\
&=&n \bar Y -n( \bar Y - \bar X \hat \beta_2) -n\hat \beta_2 \bar X\\
&=& 0
\end{eqnarray}
である。
\begin{eqnarray}
\Sigma \hat e_i X_i &=& \Sigma Y_i X_i - \Sigma ( \hat \beta_1 + \hat \beta_2 X_i) X_i \\
&=& \Sigma Y_i X_i - ( n \hat \beta_1 \bar X + \hat \beta_2 \Sigma X_i^2) \\
&=& (\Sigma (X_i - \bar X) (Y_i - \bar Y) + n \bar X \bar Y ) - ( n \hat \beta_1 \bar X + \hat \beta_2(\Sigma (X_i - \bar X)^2 + n(\bar X)^2)) \\
&=& (\Sigma (X_i - \bar X) (Y_i - \bar Y) + n \bar X \bar Y ) - ( n (\bar Y - \bar X \hat \beta_2) \bar X + \hat \beta_2(\Sigma (X_i - \bar X)^2 + n(\bar X)^2)) \\
&=& \Sigma (X_i - \bar X) (Y_i - \bar Y) - \beta_2 \Sigma (X_i - \bar X)^2\\
&=& \Sigma (X_i - \bar X) (Y_i - \bar Y) - ( \frac{ \Sigma (X_i - \bar X) (Y_i - \bar Y)}{ \Sigma (X_i - \bar X)^2 } ) \Sigma (X_i - \bar X)^2 \\
&=& 0
\end{eqnarray}
となる。つまり$X \perp e$となる。
単回帰分析の分布を考える
ここから、行列を使って考える。
Y=X\beta + \epsilon
とおく。
\begin{eqnarray}
\epsilon \sim N(0,\sigma^2 I_n)\\
Y \sim N(X\beta,\sigma^2 I_n)\\
\end{eqnarray}
となる。
次のように回帰係数を推定する
\begin{eqnarray}
X^T Y &= X^T X \beta\\
\therefore \hat \beta &= (X^T X)^{-1} X^T Y\\
\end{eqnarray}
$\hat \beta$の分布を考える
\begin{eqnarray}
E[\hat \beta] &=& (X^T X)^{-1} X^T Y \\
&=& (X^T X)^{-1} X^TX \beta\\
&=& \beta\\
\end{eqnarray}
つまり、ちゃんと$\beta$不偏推定量となっている。
\begin{eqnarray}
V[\hat \beta] &=& (X^T X)^{-1} X^T V[Y] ((X^T X)^{-1} X^T)^T\\
&=&(X^T X)^{-1} X^T \sigma^2 I_n ((X^T X)^{-1} X^T)^T\\
&=& \sigma^2 (X^T X)^{-1}
\end{eqnarray}
つまり、
\hat \beta \sim N(\beta,\sigma^2 (X^T X)^{-1})
つぎに、
\hat y = X \hat \beta
で推定する。
\begin{eqnarray}
E[\hat Y] &=& X E[\hat \beta]\\
&=&X\beta \\
\end{eqnarray}
分散は
\begin{eqnarray}
V[\hat Y] &=& X V[\hat \beta]X^T\\
&=&\sigma^2 X (X^T X)^{-1} X^T\\
\end{eqnarray}
よって
\hat Y \sim N(X \beta,\sigma^2 X (X^T X)^{-1} X^T)
推定誤差を考える
e= Y- \hat Y
平均は
\begin{eqnarray}
E[e] &=& E[Y- \hat Y]\\
&=& X\beta - X \beta\\
&=& 0
\end{eqnarray}
分散は
\begin{eqnarray}
V[e] &=& V[Y-\hat Y]\\
&=& V[Y - X(X^T X)^{-1} X^T Y]\\
&=& V[(I_n - X(X^T X)^{-1} X^T)Y]\\
&=& (I_n - X(X^T X)^{-1} X^T)Y Y^T(I_n - X(X^T X)^{-1} X^T)^T\\
&=& (I_n - X(X^T X)^{-1} X^T)\sigma^2 I_n (I_n - X(X^T X)^{-1} X^T)^T\\
&=& \sigma^2 (I_n - X(X^T X)^{-1} X^T)
\end{eqnarray}
となる。
よって
e \sim N(0, \sigma^2 (I_n - X(X^T X)^{-1} X^T ))
となる。
まとめ
\begin{eqnarray}
\epsilon &\sim& N(0,\sigma^2 I_n)\\
Y &\sim& N(X\beta,\sigma^2 I_n)\\
\hat \beta &\sim& N(\beta,\sigma^2 (X^T X)^{-1})\\
\hat Y &\sim& N(X \beta,\sigma^2 X (X^T X)^{-1} X^T)\\
e &\sim& N(0, \sigma^2 (I_n - X(X^T X)^{-1} X^T ))\\
\end{eqnarray}
誤差の分散を推定する。
e \sim N(0, \sigma^2 (I_n - X(X^T X)^{-1} X^T ))\\
である。
$X$のSVD分解を考えれば
X= U^*
\begin{pmatrix}
\Sigma\\
0\\
\end{pmatrix}
V
の形をしている。
$I_n - X(X^T X)^{-1} X^T $を計算する
\begin{eqnarray}
I_n - X(X^T X)^{-1} X^T &=& I_n - U^*
\begin{pmatrix}
I_p & 0\\
0 & 0\\
\end{pmatrix}
U\\
&=& U^*(I_n -
\begin{pmatrix}
I_p & 0\\
0 & 0\\
\end{pmatrix} )
U\\
&=& U^*
\begin{pmatrix}
0 & 0\\
0 & I_{n-p}\\
\end{pmatrix}
U
\end{eqnarray}
となる。よって
e \sim N(0, \sigma^2U^*
\begin{pmatrix}
0 & 0\\
0 & I_{n-p}\\
\end{pmatrix}
U )\\
ここで、
\begin{eqnarray}
E[\Sigma e_i^2] &=& tr[E[e e^T]] \\
&=&tr(V[e])\\
&=& tr(\sigma^2U^*
\begin{pmatrix}
0 & 0\\
0 & I_{n-p}\\
\end{pmatrix}
U ))\\
&=& \sigma^2 (n-p)
\end{eqnarray}
よって、
E[s^2] = E[\Sigma e_i ^2 / (n-p)] = \sigma^2
とすると**$s^2$が$\epsilon$の分散$\sigma^2$の推定値となる**。単回帰分析の場合はパラメータが2つなので$p=2$として計算する。
つまり$s^2$が小さいほど回帰方程式の当てはまりが良い。
$e$は
e \sim N(0, \sigma^2U^*
\begin{pmatrix}
0 & 0\\
0 & I_{n-p}\\
\end{pmatrix}
U )\\
より、$n-p$個独立で分散$\sigma^2$の正規分布変数の集まり又はベクトルとなっていると考えられる。よって、
s^2 =
\Sigma e_i ^2 / (n-p)\\
はカイ二乗分布$\sigma^2\chi^2(n-p)$に従うといえる。
単回帰分析の場合
\Sigma e_i ^2 \sim \sigma^2 \chi^2(n-p)\\
であると先ほどの結果よりわかった。$\Sigma e_i ^2$を$\sigma^2$の推定値として利用する。
\begin{eqnarray}
X &=&
\begin{pmatrix}
1 & x_1\\
\vdots& \vdots\\
1 & x_n\\
\end{pmatrix} \\
X^T &=&
\begin{pmatrix}
1 & \cdots &1\\
x_1 & \cdots & x_n\\
\end{pmatrix} \\
X^TX &=&
\begin{pmatrix}
n & n \bar x\\
n \bar x & S_{xx} + n \bar x^2\\
\end{pmatrix} \\
(X^TX)^{-1} &=&
\frac{1}{S_{xx}}
\begin{pmatrix}
\bar x^2+\frac{S_{xx}}{n} & - \bar x\\
- \bar x & 1\\
\end{pmatrix} \\
\end{eqnarray}
である。
推定係数行列$\hat \beta$は次の分布に従う
\begin{eqnarray}
\hat \beta &\sim& N(\beta,\sigma^2 (X^T X)^{-1})\\
\end{eqnarray}
よって、
\begin{eqnarray}
\hat \beta_1 &\sim& N(\beta_1,\sigma^2 (\frac{1}{n} + \frac{\bar x^2}{S_{xx}}))\\
\hat \beta_2 &\sim& N(\beta_2,\sigma^2 \frac{1}{S_{xx}})\\
\end{eqnarray}
となる。
よって、
\begin{eqnarray}
\frac{\frac{\hat \beta_2 - \beta_2}{\sqrt{\sigma^2 / S_{xx}}}}{\sqrt{\frac{\Sigma e_i ^2}{\sigma^2}}} \sim \frac{N(0,1)}{\sqrt{\chi^2(n-p)}} =t(n-2)\\
\therefore
\frac{ (\hat \beta_2 - \beta_2) \sqrt{S_{xx}}}{\sqrt{\Sigma e_i ^2} } \sim t(n-2)
\end{eqnarray}
となり、$\hat \beta_2$の検定を行うことができる。
$t$検定量の2乗は、$F$検定量になる。
帰無仮説として「$\beta_2 = 0$」を定める。つまり、「$y$は$x$によらない」という仮定だ
先ほどの$t$検定量を求めて、棄却位置にあるかを調べるということになる。
\frac{ \hat \beta_2 \sqrt{S_{xx}}}{\sqrt{\Sigma e_i ^2} } \sim t(n-2)
二乗してF検定量を出すと
\begin{eqnarray}
\frac{ \hat \beta_2^2 S_{xx}}{\Sigma e_i ^2 } &\sim& F(1,n-2)\\
(左辺 分子) &=& \sum ( \hat \beta_2 (x_i - \bar x))^2\\
&=& \sum ( \hat \beta_2 x_i - \hat \beta_2 \bar x))^2\\
&=& \sum ( (\hat \beta_ 1 + \hat \beta_2 x_i) - (\hat \beta_ 1 + \hat \beta_2 \bar x )))^2\\
&=& \sum ( \hat y_i - \bar y)^2\\
\therefore \frac{\sum ( \hat y_i - \bar y)^2}{\Sigma e_i ^2 } &\sim& F(1,n-2)\\
\therefore \frac{\sum ( \hat y_i - \bar y)^2}{\Sigma (y_i - \hat y_i )^2 } &\sim& F(1,n-2)\\
\end{eqnarray}
とりあえず、F分布になることまで証明できたので満足である。