関連記事
参考書
多変量解析入門 小西貞則著 岩波書店
語句の定義
$$y=f(x)$$の$x$に相当する変数を説明変数、$y$を目的変数という. 大抵次元は1でなく、ベクトル量であることが多い.
確率変数(目的変数)$Y_1$, $Y_2$, $\cdots$, $Y_n$からなる$n$次元確率ベクトル$$\boldsymbol Y= \begin{pmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{pmatrix}$$
の期待値(平均ベクトル)と分散共分散行列は次の通りに定義される。
$$E[\boldsymbol Y]= \begin{pmatrix}E[Y_1] \\ E[Y_2] \\ \vdots \\ E[Y_n]\end{pmatrix}$$
$$\bf{cov} (Y)= \rm{E}[(\boldsymbol Y - E[\boldsymbol Y])(\boldsymbol Y - E[\boldsymbol Y])^T]$$
$(i,j)$成分は変数$Y_i$, $Y_j$の共分散$ \rm{E}[(Y_i - E[Y_i])(Y_j - E[Y_j])^T]$である。
$A$は$m \times n$行列である。
$Z= AY$によって定義される$m$次元確率ベクトル$$Z=\begin{pmatrix} Z_1 \\ Z_2 \\ \vdots \\ Z_m \end{pmatrix}$$の期待値と分散共分散行列は以下の通りである
$$\tag{1} E[\boldsymbol Z]= AE[\boldsymbol Y]$$
$$\bf{cov} (Z)= \rm{E}[(\boldsymbol Z - E[\boldsymbol Z])(\boldsymbol Z - E[\boldsymbol Z])^T]$$
$$\bf{cov} ({\boldsymbol Z})= A\rm{E}[(\boldsymbol Y - E[\boldsymbol Y])(\boldsymbol Y - E[\boldsymbol Y])^T]A^T= A\rm{cov}(\boldsymbol Y)A^T$$
最小2乗推定量の推定値
最小2乗法とは誤差の2乗の総和を最小にするようなロジスティック回帰の式を観測データに最も適合するモデルとする方法である.
誤差項は互いに素、無相関で誤差平均は0, 分散は$\sigma^2$とする.
予測値ベクトル$\boldsymbol y$, 観測データに基づき説明変数で構成されたベクトル$\boldsymbol \beta$, そして
$\epsilon$は$n$次元誤差ベクトルとし, 計量行列$X$でもって以下の通りの式で定義できる.
線形回帰モデル$\boldsymbol y = X\boldsymbol \beta + \epsilon$において
$$E[\boldsymbol y]= E[X\boldsymbol \beta + \epsilon]= E[X\boldsymbol \beta] +E[\epsilon]= X\boldsymbol \beta$$
$$E[(\boldsymbol y - X \boldsymbol \beta)(\boldsymbol y - X \boldsymbol \beta)^T]= E[\epsilon \epsilon^T]= \sigma^2I$$
とできるよう$\sigma$を調整する。
$$E[{\boldsymbol \epsilon}]= \begin{pmatrix}E[\epsilon_1] \\ E[\epsilon_2] \\ \vdots \\ E[\epsilon_n]\end{pmatrix}=\begin{pmatrix} 0 \\ 0 \\ \vdots \\0\end{pmatrix}= \boldsymbol 0$$
$$E[{\boldsymbol \epsilon}{\boldsymbol \epsilon}^T]= \begin{pmatrix}E[\epsilon_1^2] && E[\epsilon_1\epsilon_2] && \cdots && E[\epsilon_1\epsilon_n] \\ E[\epsilon_2\epsilon_1] && E[\epsilon_2^2] && \cdots && E[\epsilon_2\epsilon_n] \\ \vdots && \vdots && \ddots && \vdots \\ E[\epsilon_n\epsilon_1] && E[\epsilon_n\epsilon_2] && \cdots && E[\epsilon_n^2] \end{pmatrix} = \begin{pmatrix}\sigma^2 && 0 && \cdots && 0 \\ 0 && \sigma^2 && \cdots && 0 \\ \vdots && \vdots && \ddots && \vdots \\ 0 && 0 && \cdots && \sigma^2 \end{pmatrix}= \sigma^2 I$$
$\sigma^2$は誤差の大きさに関連するパラメータで誤差分散という.
最小2乗推定値の性質
以降ベクトル量${\boldsymbol x}$を以下の様に設定する
$$x = \begin{pmatrix} 1 \\ x_1 \\ \vdots \\ x_p \end{pmatrix}$$
とする.
各実験点での線形回帰式上の値として定義されるのが予測値($\hat{y_i}$)で観測値($y_i$)と予測値との差が残差($e_i$)で以下の様に与えられる.
$$\hat{y_i}= \hat{\beta_0}+\hat{\beta_1}x_{i1}+ \cdots + \hat{\beta_p}x_{ip}= { \hat{\boldsymbol \beta}}^T {\boldsymbol x_i}$$
$$e_i = y_i - \hat{y_i} , i= 1,2, \cdots n$$
$\hat{\boldsymbol \beta}= (X^TX)^{-1}X^T \boldsymbol y$は誤差の出方によって確率的に変動するデータ$\boldsymbol y$に依存する量である。したがって$\hat{\boldsymbol \beta}$も変動する。
上の公式$\tag{1} E[\boldsymbol Z]= AE[\boldsymbol Y]$ を参照すると
すると
$${\boldsymbol e}= {\boldsymbol y} - \hat{\boldsymbol y} = [I_n - X (X^TX)^{-1}X^T]{\boldsymbol y}$$
で与えられる
$${\boldsymbol e}^T{\boldsymbol e}= ({\boldsymbol y} - \hat{\boldsymbol y})^T({\boldsymbol y} - \hat{\boldsymbol y})= {\boldsymbol y}^T[I_n - X (X^TX)^{-1}X^T]{\boldsymbol y}$$
で与えられる
ただし
$$[I_n - X (X^TX)^{-1}X^T]^2=[I_n - X (X^TX)^{-1}X^T]$$となることを用いた。
こうしたもの冪等行列と呼ばれる.
vol.2へ続く
https://qiita.com/yudaiyamashita/items/73c5573fb174036d7c7d