ここでは転置行列を右上にTと表して表現する。
最小2乗法
データの分布:$x$軸、$y$軸ととって表データを数値化して該当する座標$(x, y)$をプロットするとぽつぽつと黒点ができる、こういったものをデータの分布という。
観測データ$y$が$p$個の要因$x_1,x_2\cdots$、線形回帰モデルで以下の様な関係式が成り立っているとする。
$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2+ \cdots \beta_p x_p$$
このようなデータが$n$組出て来たとすると
\begin{equation}
\begin{aligned}
y_1 &= \beta_0 + \beta_1 x_{11} + \beta_2 x_{12}+ \cdots \beta_p x_{1p} \\
y_2 &= \beta_0 + \beta_1 x_{21} + \beta_2 x_{22}+ \cdots \beta_p x_{2p} \\
\vdots \\
y_n &= \beta_0 + \beta_1 x_{n1} + \beta_2 x_{n2}+ \cdots \beta_p x_{np} \\
\end{aligned}
\end{equation}
$$\begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix}= \begin{pmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1p} \\ 1 & x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{np} \end{pmatrix} \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{pmatrix} + {\boldsymbol \epsilon} $$
よって
$$\boldsymbol y = X \boldsymbol \beta + \boldsymbol \epsilon$$
$\boldsymbol y$:観測値ベクトル
$\boldsymbol \epsilon$:残差ベクトル
実際に計算
平均$E[\epsilon_i]= 0$, 分散$E((\epsilon_i - E(\epsilon_i))^2)= E(\epsilon_i^2)=\sigma^2$とする。$\sigma$は誤差分散と呼ばれ、誤差のバラつき具合を示す。
$$E[\epsilon^T \epsilon]= \sigma^2 I$$
$$\epsilon^T \epsilon$$
$$S(\boldsymbol \beta)=\sum_{i = 1}^n \epsilon_i^2= (\boldsymbol y - X \boldsymbol \beta)^T(\boldsymbol y - X \boldsymbol \beta)$$
$S(\boldsymbol \beta)$は正規方程式と呼ばれる。
https://qiita.com/yudaiyamashita/items/4c120dcbd744e317cc4d
上記記事を参照して、
$$\frac{\partial }{\partial \boldsymbol \beta}S(\boldsymbol \beta)= \frac{\partial }{\partial \boldsymbol \beta}(\boldsymbol y - X \boldsymbol \beta)^T(\boldsymbol y - X \boldsymbol \beta)$$
$A = X$, $\boldsymbol x = -\boldsymbol \beta $, $\boldsymbol b = \boldsymbol y$とすると
$$\frac{\partial }{\partial \boldsymbol \beta}S(\boldsymbol \beta)=2X^TX\boldsymbol \beta - 2 X^T \boldsymbol y$$
ただし、$$(X^TX)^T=X^TX$$である。
以下の通り、最小になる$\boldsymbol \beta$の候補は$$\frac{\partial S}{\partial \boldsymbol \beta}=0$$(ラグランジュの未定乗数法)
を満たす$\boldsymbol \beta$
これは
$$\boldsymbol \beta = (X^TX)^{-1}X^T \boldsymbol y$$
ただ一つ。2乗の係数が正(※)であることを考えれば、軸との距離が小さいのは上の$\beta$のときである。この$\beta$のことを最小2乗推定値といい
(※)$M^T M$は半正定値行列、2次形式の標準形を思い出してもらって、$<\boldsymbol x,\boldsymbol x>_{M^T M}= \boldsymbol x^T M^T M \boldsymbol x= <M\boldsymbol x,M\boldsymbol x>_E \geq 0$, $M$は基底を変換する行列である。$E$は正定値、$M$の値によっては$0$にも成りうるから半正定値。
$$y = \hat{\beta_0} + \hat{\beta_1} x_1 + \hat{\beta_2} x_2+ \cdots \hat{\beta_p} x_p$$
$$=\hat{\boldsymbol \beta}^T \boldsymbol x$$
これが線形回帰式と呼ばれるものである。
$\boldsymbol x = \begin{pmatrix} 1 \\ x_1 \\ \vdots \\ x_p \end{pmatrix}$とする。
$$ \hat{ y_i } = \hat{ \beta_0} + \hat{ \beta_1 } x_{i1} + \hat{ \beta_2}x_{i2} + \cdots + \hat{\beta_p} x_{ip}= \hat{\boldsymbol \beta}^T \boldsymbol x_i $$
$e_i= y_i - \hat{y_i}$として、
$$\hat{\boldsymbol y} = \begin{pmatrix} \hat{y_0} \\ \hat{y_1} \\ \hat{y_2} \\ \vdots \end{pmatrix}$$
$${\boldsymbol e} = \begin{pmatrix} {e_1} \\ {e_2} \\ \vdots \end{pmatrix}$$
$(X^TX)^{-1}X^T$は$X$の射影行列と呼ばれる。
$$\hat{\boldsymbol y} = X \hat{\boldsymbol \beta} =X(X^TX)^{-1}X^T \boldsymbol y$$
$(I - X(X^TX)^{-1}X^T)^2=I - 2X(X^TX)^{-1}X^T+ X(X^TX)^{-1}X^TX(X^TX)^{-1}X^T=X^{-1}(X^T)^{-1}X^T(X)^{-1}({X^T})^{-1}X^T = I - X(X^TX)^{-1}X^T$
つまり2乗、3乗しても元に戻る。
$\hat{\boldsymbol \beta}$は誤差の出方によって確率的に変動するデータ$\boldsymbol y$に依存するから確率的に変動するベクトルである。
分散共分散行列
$$\bf{cov} (Y)= \rm{E}[(\boldsymbol Y - E[\boldsymbol Y])(\boldsymbol Y - E[\boldsymbol Y])^T]$$