0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

線形回帰モデル vol.1

Last updated at Posted at 2021-07-27

関連記事

参考書

多変量解析入門 小西貞則著 岩波書店

語句の定義

$$y=f(x)$$の$x$に相当する変数を説明変数、$y$を目的変数という. 大抵次元は1でなく、ベクトル量であることが多い.

確率変数(目的変数)$Y_1$, $Y_2$, $\cdots$, $Y_n$からなる$n$次元確率ベクトル$$\boldsymbol Y= \begin{pmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{pmatrix}$$
の期待値(平均ベクトル)と分散共分散行列は次の通りに定義される。

$$E[\boldsymbol Y]= \begin{pmatrix}E[Y_1] \\ E[Y_2] \\ \vdots \\ E[Y_n]\end{pmatrix}$$

$$\bf{cov} (Y)= \rm{E}[(\boldsymbol Y - E[\boldsymbol Y])(\boldsymbol Y - E[\boldsymbol Y])^T]$$

$(i,j)$成分は変数$Y_i$, $Y_j$の共分散$ \rm{E}[(Y_i - E[Y_i])(Y_j - E[Y_j])^T]$である。
$A$は$m \times n$行列である。
$Z= AY$によって定義される$m$次元確率ベクトル$$Z=\begin{pmatrix} Z_1 \\ Z_2 \\ \vdots \\ Z_m \end{pmatrix}$$の期待値と分散共分散行列は以下の通りである

$$\tag{1} E[\boldsymbol Z]= AE[\boldsymbol Y]$$
$$\bf{cov} (Z)= \rm{E}[(\boldsymbol Z - E[\boldsymbol Z])(\boldsymbol Z - E[\boldsymbol Z])^T]$$
$$\bf{cov} ({\boldsymbol Z})= A\rm{E}[(\boldsymbol Y - E[\boldsymbol Y])(\boldsymbol Y - E[\boldsymbol Y])^T]A^T= A\rm{cov}(\boldsymbol Y)A^T$$

最小2乗推定量の推定値

最小2乗法とは誤差の2乗の総和を最小にするようなロジスティック回帰の式を観測データに最も適合するモデルとする方法である.

誤差項は互いに素、無相関で誤差平均は0, 分散は$\sigma^2$とする.

予測値ベクトル$\boldsymbol y$, 観測データに基づき説明変数で構成されたベクトル$\boldsymbol \beta$, そして
$\epsilon$は$n$次元誤差ベクトルとし, 計量行列$X$でもって以下の通りの式で定義できる.
線形回帰モデル$\boldsymbol y = X\boldsymbol \beta + \epsilon$において

$$E[\boldsymbol y]= E[X\boldsymbol \beta + \epsilon]= E[X\boldsymbol \beta] +E[\epsilon]= X\boldsymbol \beta$$

$$E[(\boldsymbol y - X \boldsymbol \beta)(\boldsymbol y - X \boldsymbol \beta)^T]= E[\epsilon \epsilon^T]= \sigma^2I$$

とできるよう$\sigma$を調整する。

$$E[{\boldsymbol \epsilon}]= \begin{pmatrix}E[\epsilon_1] \\ E[\epsilon_2] \\ \vdots \\ E[\epsilon_n]\end{pmatrix}=\begin{pmatrix} 0 \\ 0 \\ \vdots \\0\end{pmatrix}= \boldsymbol 0$$

$$E[{\boldsymbol \epsilon}{\boldsymbol \epsilon}^T]= \begin{pmatrix}E[\epsilon_1^2] && E[\epsilon_1\epsilon_2] && \cdots && E[\epsilon_1\epsilon_n] \\ E[\epsilon_2\epsilon_1] && E[\epsilon_2^2] && \cdots && E[\epsilon_2\epsilon_n] \\ \vdots && \vdots && \ddots && \vdots \\ E[\epsilon_n\epsilon_1] && E[\epsilon_n\epsilon_2] && \cdots && E[\epsilon_n^2] \end{pmatrix} = \begin{pmatrix}\sigma^2 && 0 && \cdots && 0 \\ 0 && \sigma^2 && \cdots && 0 \\ \vdots && \vdots && \ddots && \vdots \\ 0 && 0 && \cdots && \sigma^2 \end{pmatrix}= \sigma^2 I$$

$\sigma^2$は誤差の大きさに関連するパラメータで誤差分散という.

最小2乗推定値の性質

以降ベクトル量${\boldsymbol x}$を以下の様に設定する

$$x = \begin{pmatrix} 1 \\ x_1 \\ \vdots \\ x_p \end{pmatrix}$$

とする.

各実験点での線形回帰式上の値として定義されるのが予測値($\hat{y_i}$)で観測値($y_i$)と予測値との差が残差($e_i$)で以下の様に与えられる.

$$\hat{y_i}= \hat{\beta_0}+\hat{\beta_1}x_{i1}+ \cdots + \hat{\beta_p}x_{ip}= { \hat{\boldsymbol \beta}}^T {\boldsymbol x_i}$$
$$e_i = y_i - \hat{y_i} , i= 1,2, \cdots n$$

$\hat{\boldsymbol \beta}= (X^TX)^{-1}X^T \boldsymbol y$は誤差の出方によって確率的に変動するデータ$\boldsymbol y$に依存する量である。したがって$\hat{\boldsymbol \beta}$も変動する。
上の公式$\tag{1} E[\boldsymbol Z]= AE[\boldsymbol Y]$ を参照すると
すると
$${\boldsymbol e}= {\boldsymbol y} - \hat{\boldsymbol y} = [I_n - X (X^TX)^{-1}X^T]{\boldsymbol y}$$
で与えられる

$${\boldsymbol e}^T{\boldsymbol e}= ({\boldsymbol y} - \hat{\boldsymbol y})^T({\boldsymbol y} - \hat{\boldsymbol y})= {\boldsymbol y}^T[I_n - X (X^TX)^{-1}X^T]{\boldsymbol y}$$
で与えられる
ただし
$$[I_n - X (X^TX)^{-1}X^T]^2=[I_n - X (X^TX)^{-1}X^T]$$となることを用いた。
こうしたもの冪等行列と呼ばれる.

vol.2へ続く
https://qiita.com/yudaiyamashita/items/73c5573fb174036d7c7d

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?