LoginSignup
1
0

統計学入門13章回帰分析・単回帰分析まとめ

Last updated at Posted at 2023-01-08

はじまり

$X,Y$の2つの確率変数がある。
$X,Y$には関係性がある。

$n$個のサンプル$X_i,Y_i(i \in 1 \cdots n)$を取ってくる

原理

$X,Y$には原理的に

Y= \beta_1 + \beta_2 X + \epsilon 

の関係があったとする。

ここで、$\epsilon$は外乱項・誤差項・撹乱項である。確率変数でもある。

ここで、一つサンプルする

Y_i= \beta_1 + \beta_2 X_i + \epsilon_i

次の3つの仮定を入れる

(a)$E[\epsilon_i] = 0  (i \in 1 \cdots n)$
ここでの平均は確率変数の平均である。標本内平均ではない

(b) $V[\epsilon_i] = \sigma^2$

(c) $Cov(\epsilon_i , \epsilon_j) = 0$
誤差項はサンプルごとに相関がない

次に

$X_i$がまず定まったと考える。

誤差が乗って$Y_i$が決まる。

\begin{eqnarray}
E[Y_i] &=& E[\beta_1 + \beta_2 X_i + \epsilon_i]\\
&=& \beta_1 + \beta_2 E[X_i] + E[\epsilon_i]\\
&=&\beta_1 + \beta_2 X_i 

\end{eqnarray}

ここで、$E[X_i] = X_i$としているが、$X_i$が定まったうえで$Y_i$を考えているためである。
本来はこう書くべきである

\begin{eqnarray}
E[Y_i|X_i] &=& E[\beta_1 + \beta_2 X_i + \epsilon_i]\\
&=& \beta_1 + \beta_2 E[X_i|X_i] + E[\epsilon_i|X_i]\\
&=&\beta_1 + \beta_2 X_i 
\end{eqnarray}

回帰分析においては$X$を確率変数としては扱わないみたいだ。

誤差項は

\epsilon_i = Y_i -   (\beta_1 + \beta_2 X_i )

である。二乗和を$S$とする。

\begin{eqnarray}
S &=& \Sigma \epsilon_i^2\\
&=& \Sigma (Y_i -   (\beta_1 + \beta_2 X_i ))^2
\end{eqnarray}

これを最小化するように、$\beta_1,\beta_2$の推定を行う

\begin{eqnarray}
\frac{\partial S}{\partial \beta_1 } &=& \frac{\partial }{\partial \beta_1 }  \Sigma (Y_i -   (\beta_1 + \beta_2 X_i))^2\\
&=&2 \Sigma(Y_i -   (\beta_1 + \beta_2 X_i) ) (-1)\\
&=&-2 \Sigma(Y_i -   (\beta_1 + \beta_2 X_i) )\\


\frac{\partial S}{\partial \beta_2 } &=& \frac{\partial }{\partial \beta_2 }  \Sigma (Y_i -   (\beta_1 + \beta_2 X_i))^2\\
&=&2 \Sigma(Y_i -   (\beta_1 + \beta_2 X_i) ) (-X_i)\\
&=& -2 \Sigma(X_i Y_i -\beta_1 X_i - \beta_2 X_i^2)
\end{eqnarray}

$S$が最小の時$\beta_1,\beta_2$の偏微分の結果は0であるはずである。(0でないとすれば、Sは最小ではない)

\begin{eqnarray}
\begin{pmatrix}
\Sigma Y_i \\
\Sigma X_i Y_i   \\
\end{pmatrix}
=
\begin{pmatrix}
n & \Sigma X_i \\
\Sigma X_i  & \Sigma X_i^2   \\
\end{pmatrix}

\begin{pmatrix}
\hat \beta_1 \\
\hat \beta_2   \\
\end{pmatrix}\\

\therefore

\begin{pmatrix}
\hat \beta_1 \\
\hat \beta_2   \\
\end{pmatrix} 
= 
\frac{1}{n \Sigma X_i^2 -(\Sigma X_i)^2}

\begin{pmatrix}
\Sigma X_i^2  & -\Sigma X_i \\
-\Sigma X_i  & n  \\
\end{pmatrix}

\begin{pmatrix}
\Sigma Y_i \\
\Sigma X_i Y_i   \\
\end{pmatrix}

\end{eqnarray}

ここで、標本平均を導入する

\begin{eqnarray}
\bar X &= \frac{\Sigma X_i }{n} \\
\bar Y &= \frac{\Sigma Y_i }{n} 
\end{eqnarray}

分散を求めるときの展開

\begin{eqnarray}
\Sigma (X_i - \bar X)^2 &=& \Sigma X_i^2 - n(\bar X)^2\\
\therefore \Sigma X_i^2 &=& \Sigma (X_i - \bar X)^2  +   n(\bar X)^2    \\

\Sigma (X_i - \bar X) (Y_i - \bar Y) &=& \Sigma X_i Y_i  - n \bar X \bar Y \\
\therefore  \Sigma X_i Y_i &=& \Sigma (X_i - \bar X) (Y_i - \bar Y)  + n \bar X \bar Y 
\end{eqnarray}

これを使って式を変形する


\begin{eqnarray}


\begin{pmatrix}
\hat \beta_1 \\
\hat \beta_2   \\
\end{pmatrix} 
&=&
\frac{1}{n \Sigma X_i^2 -(\Sigma X_i)^2}

\begin{pmatrix}
\Sigma X_i^2  & -\Sigma X_i \\
-\Sigma X_i  & n  \\
\end{pmatrix}

\begin{pmatrix}
\Sigma Y_i \\
\Sigma X_i Y_i   \\
\end{pmatrix}\\

&=&
\frac{1}{n ( \Sigma (X_i - \bar X)^2  +   n(\bar X)^2 )-(\Sigma X_i)^2}

\begin{pmatrix}
\Sigma X_i^2  & -\Sigma X_i \\
-\Sigma X_i  & n  \\
\end{pmatrix}

\begin{pmatrix}
\Sigma Y_i \\
\Sigma X_i Y_i   \\
\end{pmatrix}\\

&=&
\frac{1}{n  \Sigma (X_i - \bar X)^2  }

\begin{pmatrix}
\Sigma X_i^2 \Sigma Y_i   -\Sigma X_i  \Sigma X_i Y_i\\
-\Sigma X_i \Sigma Y_i +  n  \Sigma X_i Y_i \\
\end{pmatrix}\\

&=&
\frac{1}{n  \Sigma (X_i - \bar X)^2  }

\begin{pmatrix}
( \Sigma (X_i - \bar X)^2  +   n(\bar X)^2) n\bar Y   - n \bar X \Sigma X_i Y_i\\
-n^2 \bar X \bar Y +  n  \Sigma X_i Y_i \\
\end{pmatrix}\\


&=&
\frac{1}{n  \Sigma (X_i - \bar X)^2  }

\begin{pmatrix}
( \Sigma (X_i - \bar X)^2  +   n(\bar X)^2) n\bar Y   - n \bar X ( \Sigma (X_i - \bar X) (Y_i - \bar Y)  + n \bar X \bar Y   )\\
-n^2 \bar X \bar Y +  n  ( \Sigma (X_i - \bar X) (Y_i - \bar Y)  + n \bar X \bar Y   ) \\
\end{pmatrix} \\

&=&
\frac{1}{n  \Sigma (X_i - \bar X)^2  }

\begin{pmatrix}
( \Sigma (X_i - \bar X)^2  ) n\bar Y   - n \bar X ( \Sigma (X_i - \bar X) (Y_i - \bar Y)     )\\
 n  \Sigma (X_i - \bar X) (Y_i - \bar Y)   \\
\end{pmatrix} \\

&=&
\begin{pmatrix}
\bar Y   - \bar X \frac{   \Sigma (X_i - \bar X) (Y_i - \bar Y)}{  \Sigma (X_i - \bar X)^2  }    \\
 \frac{   \Sigma (X_i - \bar X) (Y_i - \bar Y)}{ \Sigma (X_i - \bar X)^2  }  \\
\end{pmatrix} \\

\end{eqnarray}

このように、$\hat \beta_1,\hat \beta_2$を定めれば$S = \Sigma (Y_i - (\beta_1 + \beta_2 X_i ))^2$を最小化できる。

\hat \beta_1 = \bar Y - \bar X \hat \beta_2

の関係がある。

回帰係数まとめ

\begin{eqnarray}
\hat \beta_1 &= \bar Y - \bar X \hat \beta_2 \\
\hat \beta_2 &= \frac{   \Sigma (X_i - \bar X) (Y_i - \bar Y)}{ \Sigma (X_i - \bar X)^2  }  
\end{eqnarray}

ずれの評価

\hat Y = \hat \beta_1 + \hat \beta_2 X

として、これを標本回帰直線と呼ぶ。$Y,X$は確率変数を使う。

回帰値とのずれを$\hat e $として

\hat e_i = Y_i - \hat Y_i

とする。

\begin{eqnarray}
\Sigma \hat e_i &=& \Sigma Y_i - \Sigma ( \hat \beta_1 + \hat \beta_2 X_i) \\
&=&n \bar Y -n( \bar Y - \bar X \hat \beta_2) -n\hat \beta_2 \bar X\\
&=& 0
\end{eqnarray}

である。

\begin{eqnarray}
\Sigma \hat e_i X_i &=& \Sigma Y_i X_i - \Sigma ( \hat \beta_1 + \hat \beta_2 X_i) X_i  \\
&=& \Sigma Y_i X_i -  ( n \hat \beta_1 \bar X + \hat \beta_2 \Sigma X_i^2)  \\
&=& (\Sigma (X_i - \bar X) (Y_i - \bar Y)  + n \bar X \bar Y ) -  ( n \hat \beta_1 \bar X + \hat \beta_2(\Sigma (X_i - \bar X)^2  +   n(\bar X)^2))  \\

&=& (\Sigma (X_i - \bar X) (Y_i - \bar Y)  + n \bar X \bar Y ) -  ( n (\bar Y - \bar X \hat \beta_2) \bar X + \hat \beta_2(\Sigma (X_i - \bar X)^2  +   n(\bar X)^2))  \\

&=& \Sigma (X_i - \bar X) (Y_i - \bar Y) - \beta_2 \Sigma (X_i - \bar X)^2\\

&=&  \Sigma (X_i - \bar X) (Y_i - \bar Y) - (  \frac{   \Sigma (X_i - \bar X) (Y_i - \bar Y)}{ \Sigma (X_i - \bar X)^2  } )  \Sigma (X_i - \bar X)^2 \\
&=& 0

\end{eqnarray}

となる。つまり$X \perp e$となる。

単回帰分析の分布を考える

ここから、行列を使って考える。

Y=X\beta + \epsilon

とおく。

\begin{eqnarray}
\epsilon \sim N(0,\sigma^2 I_n)\\
Y \sim N(X\beta,\sigma^2 I_n)\\
\end{eqnarray}

となる。

次のように回帰係数を推定する

\begin{eqnarray}
X^T Y &= X^T X \beta\\
\therefore \hat \beta &= (X^T X)^{-1} X^T Y\\
\end{eqnarray}

$\hat \beta$の分布を考える

\begin{eqnarray}
E[\hat \beta] &=& (X^T X)^{-1} X^T Y \\
&=& (X^T X)^{-1} X^TX \beta\\
&=& \beta\\
\end{eqnarray}

つまり、ちゃんと$\beta$不偏推定量となっている。

\begin{eqnarray}
V[\hat \beta] &=& (X^T X)^{-1} X^T V[Y] ((X^T X)^{-1} X^T)^T\\
&=&(X^T X)^{-1} X^T \sigma^2 I_n ((X^T X)^{-1} X^T)^T\\
&=& \sigma^2 (X^T X)^{-1}
\end{eqnarray}

つまり、

\hat \beta \sim N(\beta,\sigma^2 (X^T X)^{-1})

つぎに、

\hat y = X \hat \beta

で推定する。

\begin{eqnarray}
E[\hat Y] &=& X E[\hat \beta]\\
&=&X\beta \\
\end{eqnarray}

分散は

\begin{eqnarray}
V[\hat Y] &=& X V[\hat \beta]X^T\\
&=&\sigma^2 X (X^T X)^{-1} X^T\\
\end{eqnarray}

よって

\hat Y \sim N(X \beta,\sigma^2 X (X^T X)^{-1} X^T)

推定誤差を考える

e= Y- \hat Y

平均は

\begin{eqnarray}
E[e] &=& E[Y- \hat Y]\\
&=& X\beta - X \beta\\
&=& 0
\end{eqnarray}

分散は

\begin{eqnarray}
V[e] &=& V[Y-\hat  Y]\\
&=& V[Y - X(X^T X)^{-1} X^T Y]\\
&=& V[(I_n - X(X^T X)^{-1} X^T)Y]\\
&=& (I_n - X(X^T X)^{-1} X^T)Y Y^T(I_n - X(X^T X)^{-1} X^T)^T\\
&=& (I_n - X(X^T X)^{-1} X^T)\sigma^2 I_n (I_n - X(X^T X)^{-1} X^T)^T\\
&=& \sigma^2 (I_n - X(X^T X)^{-1} X^T)
\end{eqnarray}

となる。
よって

e \sim N(0,   \sigma^2 (I_n - X(X^T X)^{-1} X^T ))

となる。

まとめ

\begin{eqnarray}
\epsilon &\sim& N(0,\sigma^2 I_n)\\
Y &\sim& N(X\beta,\sigma^2 I_n)\\
\hat \beta &\sim& N(\beta,\sigma^2 (X^T X)^{-1})\\
\hat Y &\sim& N(X \beta,\sigma^2 X (X^T X)^{-1} X^T)\\
e &\sim& N(0,   \sigma^2 (I_n - X(X^T X)^{-1} X^T ))\\
\end{eqnarray}

誤差の分散を推定する。

e \sim N(0,   \sigma^2 (I_n - X(X^T X)^{-1} X^T ))\\

である。

$X$のSVD分解を考えれば

X= U^*
\begin{pmatrix}
\Sigma\\
0\\
\end{pmatrix} 
V

の形をしている。
$I_n - X(X^T X)^{-1} X^T $を計算する

\begin{eqnarray}
I_n - X(X^T X)^{-1} X^T &=& I_n  - U^*
\begin{pmatrix}
I_p & 0\\
0 & 0\\
\end{pmatrix} 
U\\

&=&  U^*(I_n -
\begin{pmatrix}
I_p & 0\\
0 & 0\\
\end{pmatrix} )
U\\

&=&  U^*
\begin{pmatrix}
0 & 0\\
0 & I_{n-p}\\
\end{pmatrix} 
U
\end{eqnarray}

となる。よって

e \sim N(0,   \sigma^2U^*
\begin{pmatrix}
0 & 0\\
0 & I_{n-p}\\
\end{pmatrix} 
U )\\

ここで、

\begin{eqnarray}
E[\Sigma e_i^2] &=& tr[E[e e^T]] \\
&=&tr(V[e])\\
&=& tr(\sigma^2U^*
\begin{pmatrix}
0 & 0\\
0 & I_{n-p}\\
\end{pmatrix} 
U ))\\
&=& \sigma^2 (n-p)
\end{eqnarray}

よって、

E[s^2] = E[\Sigma  e_i ^2 / (n-p)] = \sigma^2

とすると**$s^2$が$\epsilon$の分散$\sigma^2$の推定値となる**。単回帰分析の場合はパラメータが2つなので$p=2$として計算する。
つまり$s^2$が小さいほど回帰方程式の当てはまりが良い。
$e$は

e \sim N(0,   \sigma^2U^*
\begin{pmatrix}
0 & 0\\
0 & I_{n-p}\\
\end{pmatrix} 
U )\\

より、$n-p$個独立で分散$\sigma^2$の正規分布変数の集まり又はベクトルとなっていると考えられる。よって、

s^2 = 
\Sigma  e_i ^2 / (n-p)\\

はカイ二乗分布$\sigma^2\chi^2(n-p)$に従うといえる。

単回帰分析の場合

\Sigma  e_i ^2  \sim \sigma^2 \chi^2(n-p)\\

であると先ほどの結果よりわかった。$\Sigma e_i ^2$を$\sigma^2$の推定値として利用する。

\begin{eqnarray}
X &=&
\begin{pmatrix}
1 & x_1\\
\vdots& \vdots\\
1 & x_n\\
\end{pmatrix} \\

X^T &=& 
\begin{pmatrix}
1 & \cdots &1\\
x_1 & \cdots & x_n\\
\end{pmatrix} \\

X^TX &=& 
\begin{pmatrix}
n & n \bar x\\
n \bar x & S_{xx} + n \bar x^2\\
\end{pmatrix} \\

(X^TX)^{-1} &=& 
\frac{1}{S_{xx}}
\begin{pmatrix}
\bar x^2+\frac{S_{xx}}{n} & - \bar x\\
- \bar x & 1\\
\end{pmatrix} \\
\end{eqnarray}

である。
推定係数行列$\hat \beta$は次の分布に従う

\begin{eqnarray}
\hat \beta &\sim& N(\beta,\sigma^2 (X^T X)^{-1})\\
\end{eqnarray}

よって、

\begin{eqnarray}
\hat \beta_1 &\sim& N(\beta_1,\sigma^2 (\frac{1}{n} + \frac{\bar x^2}{S_{xx}}))\\
\hat \beta_2 &\sim& N(\beta_2,\sigma^2  \frac{1}{S_{xx}})\\
\end{eqnarray}

となる。

よって、

\begin{eqnarray}
\frac{\frac{\hat \beta_2 - \beta_2}{\sqrt{\sigma^2 / S_{xx}}}}{\sqrt{\frac{\Sigma  e_i ^2}{\sigma^2}}} \sim \frac{N(0,1)}{\sqrt{\chi^2(n-p)}} =t(n-2)\\
\therefore
\frac{ (\hat \beta_2 - \beta_2) \sqrt{S_{xx}}}{\sqrt{\Sigma  e_i ^2} } \sim t(n-2)
\end{eqnarray}

となり、$\hat \beta_2$の検定を行うことができる。

$t$検定量の2乗は、$F$検定量になる。

帰無仮説として「$\beta_2 = 0$」を定める。つまり、「$y$は$x$によらない」という仮定だ

先ほどの$t$検定量を求めて、棄却位置にあるかを調べるということになる。

\frac{ \hat \beta_2 \sqrt{S_{xx}}}{\sqrt{\Sigma  e_i ^2} } \sim t(n-2)

二乗してF検定量を出すと

\begin{eqnarray}
\frac{ \hat \beta_2^2 S_{xx}}{\Sigma  e_i ^2 } &\sim& F(1,n-2)\\
(左辺 分子) &=& \sum ( \hat \beta_2 (x_i - \bar x))^2\\
&=& \sum ( \hat \beta_2 x_i -  \hat \beta_2 \bar x))^2\\
&=& \sum ( (\hat \beta_ 1 + \hat \beta_2 x_i) - (\hat \beta_ 1 + \hat \beta_2 \bar x )))^2\\
&=& \sum ( \hat y_i - \bar y)^2\\
\therefore \frac{\sum ( \hat y_i - \bar y)^2}{\Sigma  e_i ^2 } &\sim& F(1,n-2)\\
\therefore \frac{\sum ( \hat y_i - \bar y)^2}{\Sigma  (y_i - \hat y_i )^2 } &\sim& F(1,n-2)\\
\end{eqnarray}

とりあえず、F分布になることまで証明できたので満足である。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0