はじめに
政策や施策の効果を正確に測定することは、ビジネスや公共政策の現場において非常に重要です。しかし、現実の世界では「もしその政策を実施しなかったらどうなっていたか」という反事実を直接観測することはできません。
因果推論の手法は、この観測できない反事実を統計的に推定することで、施策の真の効果を明らかにします。本記事では、因果推論の代表的な手法である差の差分法と合成コントロール法について、それぞれの特徴や使い分けの基準を解説していきます。
本記事で扱う2つの手法の位置づけ
差の差分法と合成コントロール法は、どちらも処置群(施策を受けた対象)とコントロール群(施策を受けていない対象)を比較することで因果効果を推定する手法です。ただし、両者にはデータの要件や前提条件に大きな違いがあります。
差の差分法は複数の処置群と複数のコントロール群を比較する手法で、主にパネルデータ(複数の個体を時系列で追跡したデータ)で用いられます。一方、合成コントロール法は処置を受けた個体が1つまたは少数の場合に適用され、複数のコントロール群を重み付けして合成的なコントロールを作成する手法です。
差の差分法(Difference-in-Differences: DID)
DIDの基本的な考え方
差の差分法は、処置群とコントロール群の「時間による変化の差」を取ることで、因果効果を推定する手法です。この手法の直感的な理解は、次のような問いから始まります。
「処置群は施策前後でどれだけ変化したか?そして、コントロール群も同じ期間でどれだけ変化したか?この2つの変化の差が、施策の真の効果ではないか」
例えば、ある県で最低賃金を引き上げた場合を考えてみましょう。最低賃金を引き上げた県(処置群)と引き上げなかった県(コントロール群)を比較します。両方の県で雇用者数が減少していた場合でも、その減少幅に差があれば、その差が最低賃金引き上げの効果だと考えられます。
DIDの前提条件
DIDを適切に適用するには、いくつかの重要な前提条件を満たす必要があります。
平行トレンド仮定
最も重要な前提条件が平行トレンド仮定です。これは「もし処置が行われなかった場合、処置群とコントロール群は同じトレンドで推移していたはずだ」という仮定を意味します。
平行トレンド仮定が成立している場合、処置前の期間において両群のトレンドが平行である必要があります。この仮定が崩れると、推定される因果効果にバイアスが生じてしまいます。
SUTVA(安定単位処置値仮定)
SUTVAは、ある個体への処置が他の個体の結果に影響を与えないという仮定です。例えば、A県での最低賃金引き上げがB県の雇用に影響を与えない(労働者の移動などが発生しない)ことを前提としています。
DIDの数式表現
DIDの推定値は、次の式で表現されます。
処置群の処置後の平均をY₁₁、処置前の平均をY₁₀、コントロール群の処置後の平均をY₀₁、処置前の平均をY₀₀とすると、DID推定量は以下のようになります。
DID = (Y₁₁ - Y₁₀) - (Y₀₁ - Y₀₀)
これは回帰モデルとして表現することもできます。
Yᵢₜ = β₀ + β₁・Treatᵢ + β₂・Postₜ + β₃・(Treatᵢ × Postₜ) + εᵢₜ
ここで、Treatは処置群ダミー、Postは処置後ダミーを表し、β₃が因果効果の推定値となります。交互作用項の係数が、私たちが知りたい施策の効果を示しているわけですね。
DIDの利点と限界
DIDの主な利点は以下の通りです。
実装が比較的簡単で、標準的な回帰分析の枠組みで推定できます。また、時間を通じて変化しない個体特性や、全ての個体に共通する時間効果を自動的にコントロールできる点も強みです。多数の処置群とコントロール群がある場合に統計的検出力が高くなります。
一方で、限界もあります。
平行トレンド仮定が成立しない場合、推定値にバイアスが生じます。この仮定は直接検証することができないため、処置前のトレンドを詳細に確認する必要があります。また、処置のタイミングが個体ごとに異なる場合、標準的なDIDでは適切に対応できないことがあります。さらに、少数の処置個体しかない場合には適用が難しくなります。
合成コントロール法(Synthetic Control Method: SCM)
SCMが生まれた背景
合成コントロール法は、2000年代にAlberto Abadiらによって開発された比較的新しい手法です。この手法が登場した背景には、従来のDIDでは対応できない状況が存在していました。
特に、処置を受けた個体が1つしかない、または非常に少数の場合、適切なコントロール群を見つけることが困難でした。例えば、ある国で実施された政策の効果を評価する場合、その国と完全に同じ特性を持つコントロール国を見つけることはほぼ不可能です。
SCMは、複数のコントロール個体を最適な重みで組み合わせることで、処置個体に近い「合成的なコントロール」を作成するというアイデアで、この問題を解決しました。
SCMの基本的な考え方
重み付き平均による合成コントロールの作成
合成コントロール法の核心は、複数のコントロール個体を重み付き平均することで、処置個体に最も近い特性を持つ合成的なコントロールを作り出すことです。
例えば、カリフォルニア州で実施された禁煙政策の効果を評価する場合を考えてみましょう。カリフォルニア州と完全に同じ特性を持つ州は存在しませんが、テキサス州を30%、ニューヨーク州を40%、フロリダ州を20%、その他の州を10%の割合で組み合わせれば、カリフォルニア州に近い特性を持つ「合成カリフォルニア」を作れるかもしれません。
SCMの手順
合成コントロール法の実装は、以下の手順で進めます。
まず、処置前の期間において、処置個体の特性変数(経済指標、人口動態など)とアウトカム変数の推移を収集します。次に、各コントロール個体に対する重みを最適化します。この最適化では、合成コントロールの処置前の特性とアウトカムが、処置個体のものにできるだけ近くなるように重みを決定します。
重みには制約があり、すべての重みは0以上であり、合計が1になる必要があります。この制約により、合成コントロールは実際のコントロール個体の凸結合となります。
最適な重みが決定されたら、それを用いて処置後の期間における合成コントロールのアウトカムを計算します。最後に、処置個体の実際のアウトカムと合成コントロールのアウトカムの差を取ることで、処置効果を推定します。
SCMの数式表現
J個のコントロール個体があり、処置個体を添字1で表すとします。各コントロール個体jに対する重みをwⱼとすると、合成コントロールのアウトカムは以下のように表されます。
Ŷ₁ₜ = Σⱼ₌₂ᴶ⁺¹ wⱼ・Yⱼₜ
制約条件:
wⱼ ≥ 0(すべてのj)
Σⱼ₌₂ᴶ⁺¹ wⱼ = 1
重みwは、処置前の期間において以下の損失関数を最小化するように決定されます。
min Σₜ₌₁ᵀ⁰ (Y₁ₜ - Σⱼ₌₂ᴶ⁺¹ wⱼ・Yⱼₜ)²
ここで、T₀は処置前の最後の期間を表します。処置後t期における処置効果は、実際の値と合成値の差として推定されます。
τₜ = Y₁ₜ - Ŷ₁ₜ(t > T₀)
SCMの利点と限界
合成コントロール法の利点は、まず処置個体が1つまたは少数の場合でも適用可能な点です。これは従来の手法では対応が難しかった状況で非常に有用です。
また、合成コントロールの作成過程が透明で、どのコントロール個体がどの程度寄与しているかを明示的に示すことができます。さらに、処置前のフィット具合を視覚的に確認できるため、モデルの妥当性を評価しやすいという特徴もあります。
一方で、限界もあります。
コントロール個体が少ない場合、適切な合成コントロールを作成できないことがあります。また、処置前の期間が短い場合、重みの推定が不安定になる可能性があります。さらに、推定された重みが極端な値を取る場合、外挿のリスクが高まります。統計的推論(信頼区間の構築など)が複雑で、プレースボ検定などの手法に頼る必要がある点も注意が必要です。
DIDとSCMの比較
適用場面の違い
サンプルサイズの要件
差の差分法と合成コントロール法は、それぞれ異なるデータ構造に適しています。
DIDは、多数の処置群と多数のコントロール群が存在する場合に威力を発揮します。例えば、複数の店舗で実施された施策の効果を評価する場合や、複数の地域で導入された政策の影響を分析する場合に適しています。個体数が多いほど統計的検出力が高まり、より正確な推定が可能になります。
一方、SCMは処置個体が1つまたは少数の場合に特に有効です。国レベルの政策評価や、大企業の戦略変更の効果分析など、比較対象を見つけることが困難な状況で活躍します。ただし、十分な数のコントロール個体(一般的には少なくとも10個以上)が必要となります。
処置のタイミング
処置のタイミングも手法選択の重要な基準です。
DIDは、処置のタイミングが明確に定義されており、かつすべての処置群で同時に発生する場合に最も適しています。ただし、近年の研究では処置のタイミングが個体ごとに異なる場合への拡張も進んでいます。
SCMは、特定の時点で処置が発生するケースに焦点を当てています。処置の時点が明確であり、処置前後を明瞭に区別できることが重要です。
前提条件の違い
両手法の根本的な違いは、その前提条件にあります。
DIDは平行トレンド仮定に依存しています。これは、処置がなかった場合、処置群とコントロール群が同じトレンドで推移していたはずだという仮定です。この仮定は直接検証できないため、処置前のトレンドを詳細に分析し、間接的に妥当性を確認する必要があります。
SCMでは、平行トレンド仮定を明示的には要求しません。代わりに、処置前の期間において合成コントロールが処置個体のアウトカムをよく再現できることを確認します。この「処置前のフィット」が良好であれば、処置後の予測にも信頼が置けるという考え方です。
ただし、SCMにも暗黙の仮定があります。処置後の期間において、処置個体とコントロール個体の関係性が処置前と変わらないこと、つまり構造的な安定性が保たれていることを前提としています。
推定精度と頑健性
推定精度の観点では、それぞれの手法が異なる強みを持っています。
DIDは、大規模なサンプルがある場合に高い統計的検出力を発揮します。標準的な統計的推論の枠組みを利用できるため、信頼区間の構築や仮説検定が比較的容易です。しかし、平行トレンド仮定が成立しない場合、推定値に大きなバイアスが生じる可能性があります。
SCMは、処置前のフィット具合を視覚的に確認できるため、モデルの妥当性を評価しやすいという利点があります。また、どのコントロール個体がどの程度寄与しているかが明確なため、結果の解釈が直感的です。ただし、統計的推論が複雑で、プレースボ検定やブートストラップ法などの計算集約的な手法を用いる必要があります。
結果の比較と解釈
DIDとSCMを用いた分析では、結果の解釈方法にも違いがあります。
DIDでは、回帰分析の係数として因果効果が推定されるため、標準誤差や信頼区間、p値などの統計量を用いた解釈が可能です。処置効果の統計的有意性を検定し、効果の大きさを定量的に評価できます。
SCMでは、グラフによる視覚的な比較が重要になります。処置個体の実際の軌跡と合成コントロールの軌跡を同じグラフ上にプロットし、その差を観察します。処置前のフィット具合を確認することで、モデルの信頼性を評価します。
また、SCMではプレースボ検定(偽薬検定)と呼ばれる手法で統計的推論を行います。これは、コントロール個体のそれぞれを「仮の処置個体」として同じ分析を繰り返し、実際の処置効果がどの程度特異的かを評価する方法です。
両手法の結果が一致する場合、推定された因果効果の頑健性が高いと判断できます。逆に結果が大きく異なる場合は、前提条件の妥当性やデータの特性を再検討する必要があります。
まとめ
各手法の特徴の整理
差の差分法と合成コントロール法は、どちらも因果推論における強力なツールですが、それぞれ異なる状況に適しています。
DIDは、多数の個体を含むパネルデータがあり、平行トレンド仮定が妥当な場合に威力を発揮します。実装が比較的簡単で、標準的な統計的推論が可能という利点があります。ただし、平行トレンド仮定が崩れると推定値にバイアスが生じるため、処置前のトレンドを慎重に確認する必要があります。
SCMは、処置個体が少数で、適切な比較対象を見つけることが困難な場合に特に有効です。合成コントロールの作成過程が透明で、処置前のフィット具合を視覚的に確認できるという強みがあります。一方で、統計的推論が複雑であり、十分な数のコントロール個体と長期の処置前データが必要となります。
参考文献
- Abadie, A., Diamond, A., & Hainmueller, J. (2010). Synthetic control methods for comparative case studies: Estimating the effect of California's tobacco control program. Journal of the American Statistical Association, 105(490), 493-505.
- Abadie, A., & Gardeazabal, J. (2003). The economic costs of conflict: A case study of the Basque Country. American Economic Review, 93(1), 113-132.
- Angrist, J. D., & Pischke, J. S. (2009). Mostly harmless econometrics: An empiricist's companion. Princeton University Press.
- Card, D., & Krueger, A. B. (1994). Minimum wages and employment: A case study of the fast-food industry in New Jersey and Pennsylvania. American Economic Review, 84(4), 772-793.
- Cunningham, S. (2021). Causal inference: The mixtape. Yale University Press.