はじめに
重回帰分析を用いた因果推論において、説明変数間に相関がある場合、多重共線性と欠落変数バイアスの間でトレードオフが生じます。特に、関心のある変数(例:変数a)と相関があり、かつ目的変数に影響を与えるコントロール変数(例:変数b)をモデルに含めるべきかどうかは、分析者にとって重要な判断です。本記事では、この問題を整理し、ベストプラクティスを提案します。
問題の背景
1. 欠落変数バイアス
因果推論において、目的変数に影響を与える変数をモデルから除外すると、関心のある変数の推定係数にバイアスが生じます。例えば、変数bがaと目的変数の両方に影響を与える場合、bを除外するとaの効果が過大または過小評価されます。
2. 多重共線性
一方で、aとbが相関している場合、両方をモデルに含めると多重共線性が発生します。これにより、aの係数の標準誤差が増大し、推定値の精度が低下します。
トレードオフの整理
- 欠落変数バイアスを回避するためには、コントロール変数bをモデルに含めるべきです。
- 多重共線性を回避するためには、bを除外する(または他の手法で対処する)べきです。
因果推論におけるベストプラクティス
因果推論を目的とする場合、以下の点を考慮して判断します。
1. コントロール変数を含めるべき場合
-
bが交絡因子である場合:
bがaと目的変数の両方に影響を与える場合、bを除外するとaの推定係数にバイアスが生じます。因果推論においては、欠落変数バイアスを優先し、bをモデルに含めるべきです。 -
理論的根拠が明確な場合:
bが理論的に目的変数に影響を与えることが明らかな場合、たとえ多重共線性が発生してもbを含めることが推奨されます。
2. 多重共線性への対処法
-
VIF(分散拡大係数)の確認:
VIF > 10 の場合、多重共線性が深刻と判断されます。この場合、以下の対処法を検討します。 -
データ収集の改善:
サンプルサイズを増やすことで、標準誤差を減少させることができます。 -
頑健性チェック:
bを含めたモデルと含めないモデルを比較し、aの係数がどのように変化するかを確認します。
3. 結果の解釈と報告
- 多重共線性の存在を明記し、係数の標準誤差や信頼区間を提示します。
- 「aの効果はbを調整後も頑健だが、推定の不確実性が大きい」といった表現を使います。
- 例:
"Due to multicollinearity between A and B, the coefficient of A has a wider confidence interval, but omitting B would introduce omitted variable bias (see Appendix for sensitivity analysis)."
具体例
例えば、教育年数の効果を評価する場合、以下の変数を考えます:
- a:教育年数(関心のある変数)
- b:家庭の経済状況(コントロール変数)
- c:学校の質(コントロール変数)
ここで、aとbが相関している場合(例:経済的に豊かな家庭ほど教育年数が高い)、bを除外するとaの効果にバイアスが生じます。一方で、bを含めると多重共線性が発生し、aの推定精度が低下します。この場合、因果推論を目的とするならば、bをモデルに含めるべきです。
結論
因果推論においては、欠落変数バイアスを回避することを優先し、コントロール変数をモデルに含めるべきです。多重共線性は推定の不確実性として受け入れ、解釈時に注意を払います。また、データ収集の改善や頑健性チェックを通じて、結果の信頼性を高めることが重要です。