まとめようと思った経緯
自分が統計学について学習していく中で、統計学から統計的学習へと内容を移行していく際に回帰分析の部分が橋渡しになっていると感じ、この部分についてもう一度深く理解する必要があると感じたため、今回記事にすることにしました。
あくまで個人のまとめなのでわかりにくい部分があると思いますのでその点についてはご了承ください。
母回帰方程式
$$ y_i = β_1 + β_2 x_i + εi ・・・①$$
このモデルを母回帰方程式といい、$ β_1,β_2 $を母回帰係数という。また、$ εi $は誤差項と呼ばれ、以下の条件を満たす
- 期待値は0: $ E(εi) = 0 $
- 分散は一定で$ σ^2 $: $ V(εi) = σ^2 $
- 異なった誤差項は無相関になる
以上の点から、先述した母回帰方程式の期待値は以下になる。
$$ E(y_i) = β_1 + β_2 X_i $$
最小二乗法
①式において、$ X_i $によって説明できない誤差項は、
$$ ε_i = Y_i - (β_1 + β_2 X_i) $$
である。このままだと$ ε_i $は正負の数字が混ざっており、それだと計算に支障が出るため、符号の影響を取り除くために2乗する。
\begin{align}
S &= Σε_i^2 \\
&= Σ\big(Y_i - (β_1 + β_2 X_i)\big)^2
\end{align}
このように定義すると、Sは$Y_i$が$X_i$で説明できない部分の総和を表しているから、できるだけ小さい方がいいと考えられる。
ここで、$\hat{β_1}, \hat{β_2}$をそれぞれ$β_1, β_2$の推定量とし、最小二乗推定量と呼ぶ。
Sを最小にする$\hat{β_1}, \hat{β_2}$は、以下の偏微分を0とした2つの方程式
\frac{∂S}{∂β_1} = -2Σ(Y_i - β_1 - β_2 X_i) = 0 \\
\frac{∂S}{∂β_2} = -2Σ(Y_i - β_1 - β_2 X_i)X_i = 0
を解くことで求められる。これを整理して、
nβ_1 + (ΣX_i)β_2 = ΣY_i \\
(ΣX_i)β_1 + (ΣX_i^2)β_2 = ΣX_i Y_i
を得る。これを正規方程式という。これを解くと、$\hat{β_1}, \hat{β_2}$は、$\bar{X}, \bar{Y}$
を$X_i, Y_i$の標本平均として
\hat{β_1} = \bar{Y} - \hat{β_2} \bar{X} \\
\hat{β_2} = \frac{Σ(X_i - \bar{X})(Y_i - \bar{Y})}{Σ(X_i - \bar{X})}
特に、$\hat{β_2}$については
$$ \frac{XとYの共分散}{Xの分散}$$
で求めることができる。
また、
$$ Y = \hat{β_1} + \hat{β_2} X $$
を標本回帰方程式と呼ぶ
ここで、実際の値$Y_i$について、回帰方程式によって出された回帰値$Y_i$からのずれ
\begin{align}
\hat{e_i} &= Y_i - \hat{Y_i} \\
&= Y_i - \hat{β_1} - \hat{β_2} X_i
\end{align}
はXで説明されずに残った点であり、回帰残差という。$\hat{e_i}$は誤差項$ε_i$の推定量となっている。
誤差項$ε_i$の分散$σ^2$は回帰方程式の当てはまりの良さを示しているが、
$$ s^2 = \frac{Σ\hat{e_i}^2}{(n-2)} $$
で推定される。
決定係数
モデルの当てはまりの良さの基準として、一般に**決定係数$η^2$**が用いられる。$Y_i$のばらつきの総和は$Σ(Y_i - \bar{Y})^2$であるが、これは$X_i$で説明できる部分とそうでない部分に分けることができる。
$$ Σ(Y_i - \bar{Y})^2 = Σ(\hat{Y_i} - \bar{Y})^2 + Σ\hat{e_i}^2 $$
この時、右辺の一項が回帰方程式で説明できる部分であり、二項が説明できない変動を表している。
決定係数$η^2$は、$Y_i$の変動のうち、$X_i$の回帰方程式で説明できる変動の割合を示しており、以下で求められる。
$$ η^2 = 1 - \frac{Σ\hat{e_i}^2}{Σ(Y_i - \bar{Y})^2} = \frac{Σ(\hat{Y_i} - \bar{Y})^2}{Σ(Y_i - \bar{Y})^2} $$