はじめに
千葉大学/Nospareの米倉です.今回は多重共線性について解説したいと思います.
多重共線性とは
まずは次のような線形回帰モデルを考えます,
$$y=X\beta+\epsilon.$$
ここで$y,X,\beta$はそれぞれ,$n$次元の被説明変数のベクトル,$X$は説明変数ベクトルからなる$n\times d$の行列,$\beta$は$d$次元のパラメータのベクトルとし,$\epsilon$は$\mathbb{E}[\epsilon]=0, Var[\epsilon]=\sigma^2$を満たす確率ベクトル(誤差ベクトル)とします.
この時,最小二乗推定量(OLSE)$\hat{\beta}$は,$$\hat{\beta}=(X^{\top}X)^{-1}X^{\top}y$$と適当な仮定の下で求まります.この適当な仮定とはなんでしょうか.OLSEを見てみると,$(X^{\top}X)^{-1}$という逆行列の計算があります.なので行列$X^{\top}X$が正則行列でないと,OLSEは計算できないことになります.
ある行列$A$が正則行列でないとは,$A$の列ベクトルが線形従属なとき,つまりあるゼロベクトルでないベクトル$a$が存在して,$Aa=0$となる時のことをいいますが,実際の統計分分析では,同じ説明変数を複数使う・似通ったダミー変数を複数モデルにいれてしまう等しない限り,線形代数的な意味で(線形従属がきちんと成立する)逆行列が計算できないという状況にはならないです.
統計分析で実際起こりうる状態は,説明変数ベクトル同士の相関が非常に大きい時,$(X^{\top}X)^{-1}$の計算が不安定にる=OLSEの推定精度が落ちる,という状況です.これを主に多重共線性といいます.
多重共線性の効果
なぜ説明変数ベクトル同士に高い相関があると,OLSEの推定精度が落ちるのでしょうか?一般にOLSEの分散$Var(\hat{\beta})$は$Var(\hat{\beta})=\sigma^2(X^{\top}X)^{-1}$で与えられます.今簡単化のために$d=2$として,二つの説明変数$X_1,X_2$は$1$に正規化されているものとします.つまり,$X^{\top}X=$
$$
\begin{bmatrix}
1 & \rho \\
\rho & 1 \\
\end{bmatrix}
$$
となります.ここで$\rho$は$X_1,X_2$の相関係数です.
まず$\rho=0$の時$X^{\top}X$のランクが2になる=逆行列が定義できることに注意してください.つまり説明変数同士に全く相関がないと当然その逆行列が定義できます.上記の設定の下では$(X^{\top}X)^{-1}=(1-\rho^2)^{-1}\begin{bmatrix}
1 & -\rho \\
-\rho & 1 \\
\end{bmatrix}$となります.よってOLSE$\hat{\beta}_1,\hat{\beta}_2$の分散はそれぞれ$\frac{\sigma^2}{1-\rho^2}$ともとまります.
これより,$\rho\rightarrow +(-)1$とすると$Var[\hat{\beta}_1]=Var[\hat{\beta}_2] \rightarrow \infty$となります.つまり2つの変数間の正または負の相関が強まるにつれて,OLSEの分散は無限に発散していき結果として推定精度が悪化します.これが多重共線性の結果です.また二つの変数間に完全な正又は負の相関があるとき($\rho = +(-)1$),$X^{\top}X$のランクが1になる=逆行列が定義できないことにも注意してください.
多重共線性はそんなに問題になるのか?
以上確認した通り,多重共線性の結果はOLSEの推定精度が下がるというもので,少なとも統計学的には多重共線性の影響はこれ以上ありません.よって推定値の標準誤差が小さければ統計学的には多重共線性を気にする必要はありません.またOLSEの分散はサンプルサイズが小さい時には大きくなり,大きい時には小さくなります.なので多重共線性の効果はサンプルサイズ不足と同じなので,どちらか一方を気にしてどちらか一方を気にしないというのもおかしな理屈になります.
おわりに
株式会社Nospareでは統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospare までお問い合わせください.