目標
最小2乗推定を射影行列の観点から理解する。
そのために必要な射影行列についてまとめる。
射影
ベクトル空間 $V$ から直和分解する部分ベクトル空間 $W_1, W_1$ の片方への写像が射影である。すなわち $V=W_1+W_2$ で直和分解が与えられるとき、写像
f:V\mapsto W_1,\quad f:V\mapsto W_2
をそれぞれ $V$ から $W_1$ への射影、 $V$ から $W_2$ への射影という。
直交射影
射影の定義の中で、部分ベクトル空間 $W_1, W_1$ が直交直和の場合を直行射影という。
$n$ 次元ベクトル空間 $V$ の直交直和分解を $V=W_1\oplus W_2$ とし、$W_1$ の正規直交基底を $\{\boldsymbol{v_1}, \boldsymbol{v_2}, \cdots, \boldsymbol{v_m}\}$ とする。
このとき、$V$ から $W_1$ への直行射影を $P_{W_1}$、任意の元を $\boldsymbol{x}\in V, \boldsymbol{w_1}\in W_1$ とすると
P_{W_1}(\boldsymbol{x})
=\boldsymbol{w_1}
=\sum_{i=1}^m\boldsymbol{v_i}(\boldsymbol{v_i}^T\boldsymbol{x})
=V_{W_1}{V_{W_1}}^T\boldsymbol{x}\\
(ただしV_{W_1}=(\boldsymbol{v_1}, \boldsymbol{v_2}, \cdots, \boldsymbol{v_m}))
と表せる。
すなわち、ベクトル空間 $V$ の元 $\boldsymbol{x}$ の直行射影とは、$\boldsymbol{x}$ を部分ベクトル空間 $W_1$ の正規直交基底の各方向に分解したベクトルの和となることがわかる。
直交射影行列
直交射影する行列を直行射影行列といい、上記の右辺の行列 $V_{W_1}{V_{W_1}}^T$ も直行射影行列である。
ただ、$V_{W_1}{V_{W_1}}^T$ となるのは $V_{W_1}$ の列ベクトルが部分ベクトル空間 $W_1$ の「正規直交基底」である場合に限られ、より一般的な基底からは次のように求められる。
$n$ 次元ベクトル空間 $V$ の直交直和分解を $V=W_1\oplus W_2$ とし、$W_1$ の基底を $\{\boldsymbol{v_1}, \boldsymbol{v_2}, \cdots, \boldsymbol{v_m}\} $、$W_2$ の基底を $\{\boldsymbol{v_{m+1}}, \boldsymbol{v_{m+2}}, \cdots, \boldsymbol{v_n}\} $ とする。
また $A=(\boldsymbol{v_1}, \boldsymbol{v_2}, \cdots, \boldsymbol{v_m})$、$B=(\boldsymbol{v_{m+1}}, \boldsymbol{v_{m+2}}, \cdots, \boldsymbol{v_n})$ とする。
このとき、$V$ から $W_1$、また $W_2$ への直交射影行列 $P_{W_1}, P_{W_2}$ は次のように表せる。
\begin{align}
P_{W_1}&=A(A^TA)^{-1}A^T=I_n-P_{W_2}\\
P_{W_2}&=B(B^TB)^{-1}B^T=I_n-P_{W_1}\quad\cdots(*)
\end{align}
上述した直交射影行列 $V_{W_1}{V_{W_1}}^T$ についても
V_{W_1}({V_{W_1}}^TV_{W_1})^{-1}{V_{W_1}}^T=V_{W_1}I_n{V_{W_1}}^T=V_{W_1}{V_{W_1}}^T
となり、直交射影行列の求め方を拡張したものになっている。
なお、$V_{W_1}$ の各列ベクトルは $W_1$ の正規直交基底 $\{\boldsymbol{v_1}, \boldsymbol{v_2}, \cdots, \boldsymbol{v_m}\}$ であることから、互いに直交し、大きさは1である。よって次のように変形でき、上述の行列が得られる。
{V_{W_1}}^TV_{W_1}=
\left(\begin{matrix}
\boldsymbol{v_1}^T\\
\boldsymbol{v_2}^T\\
\vdots\\
\boldsymbol{v_m}^T
\end{matrix}\right)
(\boldsymbol{v_1}, \boldsymbol{v_2}, \cdots, \boldsymbol{v_m})
=\left(\begin{matrix}
\boldsymbol{v_1}^T\boldsymbol{v_1}&\boldsymbol{v_1}^T\boldsymbol{v_2}&\cdots&\boldsymbol{v_1}^T\boldsymbol{v_m}\\
\boldsymbol{v_2}^T\boldsymbol{v_1}&\boldsymbol{v_2}^T\boldsymbol{v_2}&\cdots&\boldsymbol{v_2}^T\boldsymbol{v_m}\\
\vdots&\vdots&&\vdots\\
\boldsymbol{v_m}^T\boldsymbol{v_1}&\boldsymbol{v_m}^T\boldsymbol{v_m}&\cdots&\boldsymbol{v_m}^T\boldsymbol{v_m}
\end{matrix}\right)=I_m
最小2乗推定法
ここでは線形モデルに最小2乗推定法を適用する場合を考える。
$p$ 個の説明変数からある目的変数を予測したいような場面で利用される。
実際に$n$ 組の観測値 $\{(y_{i},x_{i1},x_{i2},\cdots,x_{ip})|i=1,2,\cdots,n\}$ を得た場合を考える。これらを次の線形回帰モデルに当てはめる。
y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}+\varepsilon_i\\
(i=1,2,\cdots,n)
$n$ 組の観測値があるとき上記の式が $n$ 本得られるのだが、これは行列とベクトルで次のように表現することができる。
\left(\begin{matrix}
y_1\\y_2\\\vdots\\y_n
\end{matrix}\right)
=
\left(\begin{matrix}
1&x_{11}&x_{12}&\cdots&x_{1p}\\
1&x_{21}&x_{22}&\cdots&x_{2p}\\
\vdots&\vdots&\vdots&\quad&\vdots\\
1&x_{n1}&x_{n2}&\cdots&x_{np}
\end{matrix}\right)
\left(\begin{matrix}
\beta_0\\\beta_1\\\vdots\\\beta_p
\end{matrix}\right)
+
\left(\begin{matrix}
\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n
\end{matrix}\right)\\
これを
\boldsymbol{y}=X\boldsymbol{\beta}+\boldsymbol{\varepsilon}
と表す。
ここで説明変数と目的変数の関係を示す回帰係数を推定するために、2乗誤差 $\|\boldsymbol{y}-X\boldsymbol{\beta}\|^2$ を最小にする $\boldsymbol{\hat{\beta}}$ を求める「最小2乗推定法」が適用できる。
この問題を解くと、$\boldsymbol{\hat{\beta}}$ は(ベクトルの微分を使って)次式のように得られる。
\boldsymbol{\hat{\beta}}=(X^TX)^{-1}X^T\boldsymbol{y}
最小2乗推定法の解釈
最小2乗推定法を射影の観点で考える。
$\boldsymbol{y}$ の予測値ベクトル $\boldsymbol{\hat{y}}$ は次式で与えられる。
\boldsymbol{\hat{y}}=X\boldsymbol{\hat{\beta}}=X(X^TX)^{-1}X^T\boldsymbol{y}\quad\cdots(**)\\
$(**)$ 式の右辺は $(*)$ 式の射影行列と同じ形である。
線形回帰モデルにおける回帰係数ベクトル $\boldsymbol{\beta}$ の最小2乗推定、すなわち $\boldsymbol{\hat{\beta}}$ を求める操作は、目的変数ベクトル $\boldsymbol{y}$ を $X$ の列ベクトルで張られる空間へ直行射影したベクトル $\boldsymbol{\hat{y}}$ を求めることに等しいことがわかる。