はじめに
この記事では
- OLS(ordinary least squares,いわゆる普通の最小二乗法)
- WLS(weighted least squares, 重み付き最小二乗法)
- GLS(generalized least squares,一般化最小二乗法)
の3つにはどのような違いがあるかを解説します!
そもそも最小二乗法とは
三者の比較をする前に、一番簡単なOLSの導出を通じて最小二乗法とは何かを確認します。
最小二乗法とは線形回帰モデルを使う際に、残差二乗和を最小にするようなパラメータ$\beta$の推定量を求める方法を指します。
j個の説明変数からなる線形回帰モデルは
$$f(X)=\beta_0+\sum^p_{j=1}X_j\beta_j$$
と表記することができます。
このとき、f(X)を使って目的変数yを予測すると、残差平方和(RSS)は
$$
RSS(\beta)
=\sum^N_{i=1}(y_i-f(x_i))^2
=\sum^N_{i=1}(y_i-\beta_0-\sum^p_{j=1}x_{ij}\beta_j)^2
$$
と定義されます。
この残差平方和をすっきりさせるため、行列表記に直すと
$$RSS(\beta)=(y-X\beta)^T(y-X\beta)$$
となります。
RSSを最小化するに$\beta$で微分して0とおきます。
$$\frac{\partial RSS}{\partial \beta}=-2X^T(y-X\beta)=0$$
$X^TX$に逆行列が存在するとき、これを$\beta$について解くと
$$\hat{\beta}=(X^TX)^{-1}X^Ty$$
となり、予測値yは
$$\hat{y}=X\hat{\beta}=X(X^TX)^{-1}X^Ty$$
となります。
OLS推定量
上記のOLSには3つの仮定があります。
- 誤差項uの、Xが与えられた下での条件付き平均は0
- $(X_i,Y_i)$は独立に同一の分布から得られている
- $(X_i,u_i)$は有限の4次のモーメントを持つ
これらが満たされているとき、OLS推定量は不偏性や一致性といった推定量として望ましい性質を持っています。
それに加えて、もし誤差項が均一分散なら、OLS推定量はあらゆる不偏で線形な推定量のなかで最も小さい分散を持つことが知られています。(これをガウス=マルコフ定理といい、OLSはbest linear unbiased estimator,BLUEだと言います)
※ここでいう「分散」は推定量の条件付き分散を指します。分散が大きい事は推定量がブレブレだという意味なので分散は小さければ小さいほど良いです。
OLSの拡張
誤差項が均一分散ならOLS推定量はBLUEでした。
誤差項が均一分散とは、説明変数が複数の時には誤差項の分散共分散行列が単位行列になるということと同義です。しかし実際にはこのような仮定が成り立つとは考えにくいです。
そこで、誤差項の分散共分散行列を単位行列以外に拡張したものがWLSとGLSです。
WLSでは単位行列から対角行列に条件が緩められ、不均一分散に対応できます。
GLSでは対角行列から対象行列に条件がさらに緩められ、誤差項間の共分散が0である必要もなくなります。
比較
結論から述べるとOLS,WLS,GLSで得られる$\beta$の推定量は
OLS推定量
$\hat{\beta}=(X^TX)^{-1}X^Ty$
WLS推定量
$\hat{\beta}=(X^TWX)^{-1}X^T Wy$
GLS推定量
$\hat{\beta}=(X^T\Omega^{-1} X)^{-1}X^T \Omega^{-1}y$
となります。
均一分散の仮定が成り立たない時には、Wや$\Omega$に適切な行列を持ってきてあげることでOLS推定量よりも分散の小さな推定量を求めることができます。