前回記事
参考本
多変量解析入門 小西貞則著
幾何的な考察
線形回帰モデルに対して目的変数$y$と$p$個の説明変数$x_1, x_2, \cdots , x_p$に関して観測された$n$個のデータを, ${ (y_1, x_{i1}, x_{i2}, \cdots, x_{ip}: i= 1,2, \cdots ,p) }$とする.
この観測データに基づく線形回帰モデルは, ベクトルと行列で表記すると
$$\boldsymbol y = X \boldsymbol \beta + \boldsymbol \epsilon$$
で与えられた.
計画行列$X$(n $\times$ p+1の行列)を縦ベクトルで構成すると
$$X= [\boldsymbol 1, \boldsymbol x_1^{*}, {\boldsymbol x_2^\ast}, \cdots, \boldsymbol x_p^\ast]$$
$\boldsymbol 1$は要素全てが$1$の$n$次元ベクトル。
$$\boldsymbol y=[\boldsymbol 1, \boldsymbol x_1^{*}, {\boldsymbol x_2^\ast}, \cdots, \boldsymbol x_p^\ast] \boldsymbol \beta+\boldsymbol \epsilon=\beta_0\boldsymbol 1+\beta_1\boldsymbol x_1^\ast +\beta_2\boldsymbol x_2^\ast+ \cdots + \beta_p\boldsymbol x_p^\ast$$
([]は行列を表す記号。縦ベクトルを集めた行列と縦ベクトルを同順で掛けると2番目の=の通り、変形できる。計算で確かめられる。)
と表すことができる。右辺の式は、計画行列Xの$(p+1)$個の$n$次元列ベクトルによって張られる以下の$(p+1)$次元部分空間を構成する。
$$M(X) = ( x^\ast : x^\ast = \beta_0\boldsymbol 1 + \beta_1 \boldsymbol x^\ast_1 + \beta_2 \boldsymbol x^\ast_2 +\cdots \beta_p \boldsymbol x^\ast_p)$$
(集合の記号が上手く出力されないので()に変えました)
(説明変数ベクトル$\boldsymbol x$と違うぞ、ということを表すため、アスタリスクをつけました。)
回帰係数を変化させると$X\boldsymbol \beta$は線形部分空間$M(X)$を移動することがわかる。
最小2乗法とは誤差の2乗和$\epsilon^T \epsilon = (\boldsymbol y - X\boldsymbol \beta)^T (\boldsymbol y - X\boldsymbol \beta)$を最小とする回帰係数$\hat{\boldsymbol \beta}$を推定値とする方法であった。したがって$\boldsymbol y = X \boldsymbol \beta + \boldsymbol \epsilon$に対し、誤差の2乗和、L2ノルムが最小になるのは、部分空間$M(X)$上を移動する$X\boldsymbol \beta$が$n$次元観測値ベクトル$\boldsymbol y$から線形部分空間上への射影になるときである。
残差ベクトル$\boldsymbol e$は$\boldsymbol y$から$M(X)$へ下ろした垂線である
よって$\boldsymbol y^T\boldsymbol y=(\hat{\boldsymbol y}+\boldsymbol e)^T(\hat{\boldsymbol y}+\boldsymbol e)=\hat{\boldsymbol y}^T\hat{\boldsymbol y}+\boldsymbol e^T\boldsymbol e$($\hat{\boldsymbol y}$と$\boldsymbol e$は直交する)
$\boldsymbol y= \hat{\boldsymbol y}+\boldsymbol e$, この射影$\hat{\boldsymbol y}$は$n \times (p+1)$次計画行列$X$の列ベクトルで張られる$p+1$次元線形部分空間$M(X)$上のベクトルであることから, 射影行列$X(X^TX)^{-1}X^T$によって,
$$\hat{\boldsymbol y}= X(X^TX)^{-1}X^T\boldsymbol y$$
これは$$X\hat{\boldsymbol \beta}$$
とイコールであり、まさに
$\hat{\boldsymbol \beta}= (X^TX)^{-1}X^T\boldsymbol y$であり、幾何的な意味で、最小2乗推定値を与える回帰係数ベクトルであることが示された.
$M(X)$の直交補空間$M^{\bot}(X)$(3次元空間であれば直線)
射影行列
$n$次元ベクトル$\boldsymbol y$とその射影$\boldsymbol x$に対して、$P\boldsymbol y= \boldsymbol x$というような$n \times n$行列$P$を射影行列という。
$I-P$は直交補空間$M^{\bot}(X)$上への射影行列である。
$P$は、$P^2=P$を満たす。
※射影する寄与を2回かけても元の1回分の寄与だけ、効き目がある。
線形部分空間上への射影行列
$n\times (p+1)$行列$X$の階数を$p+1$とすると、$X$の$p+1$個の列ベクトルで張られる線形部分空間上への射影行列は$P=X(X^TX)^{-1}X^T$で与えられる.
$$(I - X (X^TX)^{-1}X^T)^2=I - X (X^TX)^{-1}X^T$$
であるから云々