はじめに
因果推論や回帰分析を行う際、交絡因子への適切な対処は正しい結論を導くために欠かせません。しかし、「どの変数を統制すればよいのか」という判断は意外と難しいものです。
本記事では、交絡因子への対処方法を変数の種類ごとに整理し、DAG(有向非巡回グラフ)とバックドア基準を用いた体系的な変数選択の方法を解説します。
交絡因子とは
交絡因子とは、説明変数と目的変数の両方に影響を与える第三の変数のことです。交絡因子を適切に統制しないと、見かけ上の関連(疑似相関)を因果関係と誤認してしまう可能性があります。
例えば、「アイスクリームの売上」と「熱中症の発生件数」には正の相関がありますが、これは両者に影響を与える「気温」という交絡因子が存在するためです。
変数の種類による対処方法
交絡因子への対処方法は、その変数がカテゴリ変数か量的変数かによって異なります。
カテゴリ変数の場合
カテゴリ変数(性別、地域、治療群など)が交絡因子となる場合は、層別化または固定によって対応します。
層別化とは、交絡因子のカテゴリごとに分析を行う方法です。例えば、性別が交絡因子の場合、男性グループと女性グループに分けて別々に分析を実施します。
固定とは、特定のカテゴリに限定して分析する方法です。例えば、「成人男性のみ」に対象を絞ることで、性別と年齢層を固定します。
これらの方法を使うことで、カテゴリ変数による交絡を排除できますね。
量的変数の場合
量的変数(年齢、収入、BMIなど)が交絡因子となる場合は、重回帰モデルに説明変数として投入することで対応します。
重回帰モデルでは、複数の説明変数を同時に扱い、それぞれの独立した効果を推定できます。交絡因子を説明変数に含めることで、その影響を統計的に調整した上で、関心のある変数の効果を推定できるのです。
例えば、運動習慣(X)が体重(Y)に与える影響を調べる際、年齢(Z)が交絡因子であれば、以下のようなモデルを立てます。
Y = β0 + β1X + β2Z + ε
この場合、β1は年齢の影響を調整した上での運動習慣の効果を表します。
重回帰分析による変数選択
ここまで対処方法を説明してきましたが、「どの変数を説明変数に入れるべきか」という判断はどのように行えばよいのでしょうか。この問いに答えるのが、DAGとバックドア基準です。
DAGとは
DAG(Directed Acyclic Graph:有向非巡回グラフ)は、変数間の因果関係を矢印で表現した図です。矢印は因果の方向を示し、循環がない(非巡回)という特徴があります。
例えば、教育年数(E)が収入(I)に影響を与え、両者とも家庭環境(F)に影響されるという状況は以下のように表現されます。
このDAGを見ると、家庭環境が教育年数と収入の両方に影響を与える交絡因子であることが一目で分かりますね。
バックドア基準とは
バックドア基準は、因果効果を正しく推定するために「どの変数を統制すべきか」を判断する基準です。
具体的には、説明変数(X)から目的変数(Y)への因果効果を推定する際、以下の条件を満たす変数の集合Zを見つけて統制する必要があります。
- Zに含まれる変数は、Xの子孫ではない
- ZによってXからYへのすべてのバックドアパス(Xに入る矢印から始まるパス)がブロックされる
「バックドアパス」とは、XとYを結ぶ経路のうち、Xに矢印が入ってくる経路のことです。これらの経路が開いていると、交絡によるバイアスが生じます。
DAGによる変数選択の実践例
以下のような状況を考えてみましょう。
この場合、XからYへの因果効果を推定するには:
- 交絡因子Cを統制する必要がある(バックドアパスX←C→Yを閉じる)
- 媒介変数Mは統制してはいけない(Xの子孫であり、統制するとXの間接効果が消える)
このように、DAGを描いてバックドア基準を適用することで、統制すべき変数を体系的に判断できます。
実践的なワークフロー
実際の分析では、以下のような手順で進めましょう。
ステップ1:DAGを描く
まず、研究テーマに関連する変数をリストアップし、それらの因果関係を整理してDAGを描きます。この段階では、先行研究や専門知識に基づいて慎重に検討することが重要です。
ステップ2:バックドア基準を適用する
DAGが完成したら、説明変数から目的変数へのバックドアパスを特定し、それらを閉じるために必要な変数の集合を見つけます。
ステップ3:変数の種類に応じた対処
特定した変数がカテゴリ変数であれば層別化や固定を、量的変数であれば重回帰モデルへの投入を検討します。
ステップ4:分析と検証
実際に分析を行い、結果が理論的に妥当かどうかを確認します。予想外の結果が出た場合は、DAGの見直しや他の交絡因子の検討が必要かもしれません。
注意点
DAGとバックドア基準を用いた変数選択には、いくつか注意すべき点があります。
DAGは仮定に基づく
DAGは研究者の知識や仮定に基づいて作成されるため、間違った因果関係を仮定すると誤った結論に至る可能性があります。できる限り先行研究や理論的根拠に基づいてDAGを構築しましょう。
Collider(合流点)の統制に注意
変数の中には、統制することでかえってバイアスが生じる「Collider」と呼ばれるものがあります。これは、2つの変数から矢印が入ってくる変数のことです。
Colliderを統制すると、XとYの間に疑似的な関連が生じてしまうため、統制してはいけません。
すべての交絡因子を観測できるとは限らない
理想的には、DAGで特定したすべての交絡因子をデータに含めて統制すべきですが、現実には観測できない交絡因子が存在する場合もあります。このような場合は、操作変数法や差分の差分法などの他の手法を検討する必要があります。
まとめ
交絡因子への対処は、因果推論において最も重要なステップの一つです。本記事では以下の点を解説しました。
- カテゴリ変数の交絡因子には層別化または固定で対応する
- 量的変数の交絡因子には重回帰モデルで対応する
- DAGとバックドア基準を使って統制すべき変数を体系的に選択できる
- Colliderなど、統制してはいけない変数にも注意が必要
適切な変数選択は、正しい因果推論の基盤となります。DAGを活用して、理論的根拠に基づいた分析を心がけましょう。