1. はじめに
因果推論とは何か
因果推論とは、ある施策や介入が結果にどのような影響を与えたかを科学的に評価する統計手法です。例えば、新しいマーケティング施策を実施した際に「売上が増加したのは施策の効果なのか、それとも季節要因や他の外部要因によるものなのか」を判断する場面で活用されます。
単純に介入前後を比較するだけでは、因果関係を正しく評価できません。なぜなら、介入以外の要因(交絡因子)が結果に影響を与えている可能性があるためです。因果推論の手法を使うことで、これらの交絡因子の影響を調整し、純粋な介入効果を推定できるようになります。
なぜ手法の使い分けが重要なのか
因果推論には複数の手法が存在し、それぞれに適した状況や前提条件が異なります。データの特性や分析の目的に応じて適切な手法を選択しないと、誤った結論を導いてしまう可能性があります。
本記事では、実務でよく使われる5つの因果推論手法について、その特徴と使い分けのポイントを解説します。
2. 因果推論における共通の課題
セレクションバイアスとは
セレクションバイアスは、介入を受けるグループと受けないグループが、何らかの理由で体系的に異なっている場合に生じます。
例えば、新しい教育プログラムの効果を評価する際に、やる気の高い生徒だけがプログラムに参加した場合、成績向上がプログラムの効果なのか、もともとやる気が高かったことの影響なのかを区別できません。
交絡因子の影響
交絡因子とは、介入と結果の両方に影響を与える第三の要因のことです。交絡因子が存在すると、介入効果を正しく評価できなくなります。
交絡因子の例
- 年齢:高齢者ほど特定の医療サービスを受けやすく、かつ健康リスクも高い
- 所得:所得が高いほど高価な商品を購入しやすく、かつ教育水準も高い傾向がある
- 地域特性:都市部では新サービスが展開されやすく、かつ消費行動も活発
ランダム化実験が難しい現実
理想的には、ランダム化比較試験を実施して介入群とコントロール群を無作為に割り当てることで、交絡因子の影響を排除できます。しかし、実務ではランダム化が困難なケースが多いですね。
ランダム化が難しい理由
- 倫理的な問題:医療や教育分野では、効果が期待される介入をランダムに制限することが難しい
- コストの問題:大規模なランダム化実験には多大な時間と費用がかかる
- 実現可能性:既に実施された施策の効果を事後的に評価したい場合、ランダム化は不可能
因果推論の手法は、このようなランダム化が困難な状況でも、因果効果を推定するために開発されました。
3. 主要な因果推論手法の概要
3.1 差分の差分法(DID)
基本的な考え方
差分の差分法は、介入前後の変化を介入群とコントロール群で比較する手法です。時間の経過に伴う共通のトレンドを除去することで、純粋な介入効果を抽出します。
具体的には、以下の二段階の差分を計算します:
- 各グループ内で介入前後の差分を計算
- 2つのグループ間でその差分の差を計算
計算式
DID推定量 = (介入群の介入後 - 介入群の介入前) - (コントロール群の介入後 - コントロール群の介入前)
平行トレンド仮定
DIDが有効に機能するためには、平行トレンド仮定が成立する必要があります。これは「介入がなかった場合、両グループは同じトレンドで推移していたはず」という仮定です。
この仮定を確認するには、介入前の期間で両グループのトレンドが平行であることを視覚的にチェックすることが重要です。
3.2 傾向スコアマッチング(PSM)
傾向スコアとは
傾向スコアは、観測された共変量を条件として、各個体が介入を受ける確率のことです。ロジスティック回帰などを使って推定されます。
傾向スコアが同じであれば、観測された特性が似ている個体同士ということになります。この性質を利用して、介入群とコントロール群から似た個体をペアにして比較するのがPSMの考え方です。
マッチング手法の種類
傾向スコアを使ったマッチングにはいくつかの方法があります:
最近傍マッチング
介入群の各個体に対して、最も傾向スコアが近いコントロール群の個体を1対1でペアにします。
カリパーマッチング
傾向スコアの差が一定の閾値(カリパー)以内の個体のみをマッチング対象とします。質の低いマッチングを避けられます。
カーネルマッチング
介入群の各個体に対して、複数のコントロール群個体を重み付き平均して比較します。傾向スコアが近いほど大きな重みが付与されます。
3.3 逆確率重み付け(IPW)
重み付けの仕組み
逆確率重み付けは、各個体に傾向スコアの逆数に基づく重みをつけることで、両群の共変量分布のバランスを取る手法です。
重みの計算
- 介入群の個体:1 / 傾向スコア
- コントロール群の個体:1 / (1 - 傾向スコア)
この重み付けにより、介入を受けにくい特性を持つ介入群個体や、介入を受けやすい特性を持つコントロール群個体に大きな重みが付与されます。結果として、疑似的にランダム化試験の状況を作り出すことができます。
PSMとの違い
PSMとIPWは両方とも傾向スコアを使いますが、アプローチが異なります:
| 特徴 | PSM | IPW |
|---|---|---|
| データの使い方 | マッチングできた個体のみ使用 | 全ての個体を使用 |
| サンプルサイズ | マッチング後に減少 | 変わらない |
| 極端な傾向スコアへの対応 | カリパーで除外可能 | 極端な重みが発生しやすい |
| 推定効果 | ATT(介入群への効果)推定に適している | ATE(平均処置効果)推定に適している |
IPWは全データを活用できる利点がありますが、傾向スコアが0や1に近い場合に極端な重みが発生し、推定が不安定になる可能性があります。
3.4 合成コントロール法(SCM)
重み付き平均による合成
合成コントロール法は、複数のコントロール群を重み付き平均して、介入群と類似した「合成コントロール群」を作り出す手法です。
各コントロール群に対する重み(0以上1以下で合計が1)を最適化することで、介入前の期間において介入群の動きを最もよく再現できる合成コントロールを構築します。
重みの最適化
重みは、介入前の期間において合成コントロールと介入群の差が最小になるように選ばれます。具体的には、以下を最小化します:
- アウトカム変数の差
- 重要な共変量の差
時系列データでの活用
SCMは特に以下のような状況で威力を発揮します:
- 介入を受けるユニットが1つまたは少数の場合
- 長期の時系列データが利用可能な場合
- 他の地域や期間をコントロールとして使える場合
例えば、ある都市で新しい政策が実施された際の効果を、他の類似都市を組み合わせて作った合成コントロールと比較することで評価できます。
3.5 感度分析
観測できない交絡への対応
これまで紹介した手法は、観測された共変量に基づいて交絡因子を調整します。しかし、観測できない交絡因子が存在する可能性は常にあります。
感度分析は、観測できない交絡因子がどの程度強ければ、推定された因果効果が無効になる(統計的に有意でなくなる、または符号が反転する)かを評価する手法です。
ロバストネスチェック
感度分析の代表的なアプローチとして、Rosenbaum境界テストがあります。これは、観測できない交絡因子によって介入を受ける確率が何倍変化したとしても、結論が変わらないかを調べる方法です。
感度分析の結果、弱い交絡でも結論が覆ってしまう場合は、推定された因果効果の信頼性が低いと判断できます。逆に、強い交絡があっても結論が変わらない場合は、結果の頑健性が高いと言えますね。
4. 手法の使い分け基準
4.1 データの特性で選ぶ
時系列データの有無
時系列データがある場合
DIDまたはSCMが適しています。特に、介入前の十分な期間のデータがあれば、平行トレンド仮定の妥当性を確認できますし、SCMでは合成コントロールの再現性を検証できます。
横断面データのみの場合
PSMまたはIPWを検討しましょう。これらの手法は時系列構造を必要とせず、介入時点での観測データから傾向スコアを推定して因果効果を評価できます。
サンプルサイズ
サンプルサイズが大きい場合
IPWが効果的です。多数のサンプルがあれば、極端な傾向スコアを持つ個体の影響を相対的に小さくでき、重み付け推定が安定します。
サンプルサイズが小さい場合
PSMやSCMが適しています。PSMは質の高いマッチングペアに絞って分析できますし、SCMは少数ユニットの事例研究に特化した手法です。
共変量の測定可能性
重要な共変量を測定できる場合
PSMやIPWが有効です。これらの手法は、観測された共変量を用いて条件付き独立性を満たすことを前提としています。
共変量の測定が不完全な場合
DIDの平行トレンド仮定は、時間不変の観測されない要因を差分で除去できるため、共変量が不完全でも対応可能です。ただし、時間とともに変化する観測されない交絡には対処できません。
4.2 前提条件で選ぶ
平行トレンド仮定(DID)
DIDを使用する際は、介入前の期間で両グループが同じトレンドを持っていたかを必ず確認しましょう。以下の方法で検証できます:
- 介入前の期間を複数の時点に分けて、疑似的なDIDを実施(プラセボテスト)
- 介入前のトレンドを視覚化してグラフで確認
- イベントスタディ分析で各期間の効果を推定
平行トレンド仮定が成立しない場合、DIDの推定値は偏りを持ちます。
条件付き独立性(PSM、IPW)
PSMとIPWは、観測された共変量を条件として、介入の割り当てが結果と独立であることを仮定します。これは「観測された変数をすべて調整すれば、他に交絡因子はない」という強い仮定です。
この仮定を完全に検証することはできませんが、以下の対応が推奨されます:
- できるだけ多くの関連する共変量を含める
- ドメイン知識に基づいて重要な交絡因子を特定する
- 感度分析で観測できない交絡の影響を評価する
補間の妥当性(SCM)
SCMは、コントロール群の加重平均で介入群を再現できることを前提としています。以下の点に注意が必要です:
- 介入群の特性がコントロール群の範囲内に収まっているか
- 外挿になっていないか(コントロール群にない極端な値を再現しようとしていないか)
- 介入前の再現性が十分に高いか
介入前の適合度が低い場合、SCMの推定値の信頼性は低くなります。
5. 実務での選択フロー
各手法の特徴を理解したうえで、要件に合う分析を適応しましょう。
複数手法の併用パターン
実務では、複数の手法を組み合わせることで、より頑健な結論を得ることができます。
パターン1:DID + PSM/IPW
時系列データがある場合でも、介入時点での共変量の不均衡が大きい場合は、PSMまたはIPWで共変量をバランスさせた上でDIDを実施する方法があります。これにより、平行トレンド仮定の妥当性が高まります。
パターン2:主手法 + 感度分析
どの手法を主として使う場合でも、感度分析を追加することで、観測できない交絡因子の影響を評価し、結果の頑健性を示すことができます。
パターン3:複数手法での推定値の比較
同じデータに対して複数の手法を適用し、推定値が概ね一致するかを確認することで、特定の手法の仮定に依存しない結論を導けます。推定値が大きく異なる場合は、それぞれの手法の前提条件を再検討する必要があります。
6. 各手法の限界と注意点
それぞれの手法で対処できない問題
どの因果推論手法も万能ではなく、特定の前提条件の下でのみ有効です。各手法の主な限界を理解しておきましょう。
DIDの限界
- 平行トレンド仮定が成立しない場合、推定値は偏りを持つ
- 介入のタイミングが異なる場合(スタッガード導入)の扱いが複雑
- 時間とともに変化する交絡因子には対処できない
PSM/IPWの限界
- 観測できない交絡因子には対処できない
- 条件付き独立性の仮定が検証困難
- 極端な傾向スコアを持つ個体の扱いが難しい(特にIPW)
- 共変量の測定誤差の影響を受けやすい
SCMの限界
- 介入前の期間が短いと合成の質が低下する
- 介入群の特性がコントロール群の凸包の外にある場合、外挿になり信頼性が低下
- 統計的推測(信頼区間の構築)が複雑
- 複数の介入ユニットがある場合の拡張が難しい
感度分析の重要性
すべての因果推論手法において、観測できない交絡因子の存在は最大の脅威です。どれだけ注意深く共変量を選択しても、重要な交絡因子を見落としている可能性は排除できません。
感度分析を実施することで、以下のメリットがあります:
- 推定結果の頑健性を定量的に評価できる
- どの程度の観測されない交絡があれば結論が覆るかを明示できる
- 読者や意思決定者に対して、結果の信頼性を透明に伝えられる
特に重要な意思決定に関わる分析では、感度分析を省略せず、必ず実施することをおすすめします。
7. まとめ
手法選択のポイント再確認
因果推論の手法選択では、以下のポイントを総合的に判断することが重要です:
データ構造を確認する
- 時系列データがあるか、横断面データのみか
- サンプルサイズは十分か
- 介入ユニットは多数か少数か
前提条件を吟味する
- 平行トレンド仮定は成立しそうか(DID)
- 重要な共変量は観測できているか(PSM、IPW)
- コントロール群で介入群を補間できるか(SCM)
実務的な制約を考慮する
- 分析の複雑さとリソースのバランス
- 結果の説明しやすさ
- 意思決定のタイムライン
頑健性を確保する
- 複数の手法を試して結果を比較する
- 感度分析で観測できない交絡の影響を評価する
- 前提条件の妥当性を丁寧に検証する
因果推論における継続的な学習
因果推論の分野は現在も活発に研究が進んでおり、新しい手法や既存手法の改良が次々と提案されています。本記事で紹介した手法は基本的なものですが、実際の分析ではさらに高度な手法が必要になることもあるでしょう。
以下のような発展的なトピックにも目を向けることで、より精緻な因果分析が可能になります:
- 機械学習を組み込んだ因果推論(Double Machine Learning、Causal Forestなど)
- 操作変数法による観測できない交絡への対処
- 回帰不連続デザインによる閾値前後の効果推定
- 時間依存的な交絡因子への対応(Marginal Structural Modelなど)
因果推論は奥深い分野ですが、適切な手法を選択し、前提条件を慎重に検証することで、データから信頼性の高い因果効果を推定できます。本記事が、実務での因果推論手法の選択に役立てば幸いです。