忙しい人向けの結論
・DIDはトリートメントグループと性質が似たコントロールグループを用意し、比較することでバイアスを減らしながら効果検証する手法。
・DIDで用意するコントロールグループはトリートメントグループと平行トレンド仮定をおいている。何らかの共変量により平行トレンド仮定が崩れているなら、その共変量を回帰分析の式に含める必要がある。
DIDが必要になる瞬間
例えば、ある地域で値下げ施作を実施した場合、地域全体で値下げを行うことになるので、介入グループは手に入るがコントロールグループは手に入らない場合がある。また、RCTが難しい予算等の都合上難しい場合などによって、コントロールグループが手に入らない場合もある。このように場合に工夫によって擬似的にコントロールグループを用意し、効果検証するための手法の1つにDIDがある。
DID(Difference in Differences)のアイデア
イギリスのコレラ感染の例で説明する。イギリスのある町で水源を共有するA社とB社がいる。医師のジョン・スノウはコレラ感染が空気感染か水感染かのどちらの経路で起こるかを調べている。1852年にA社が供給水の水源を汚染の少ない上流に移したことを利用し、感染経路の検証を行う。仮にコレラの死者数が少なくなっていれば、水感染である可能性が高いことがわかる。
前後比較
1849年時にはA社とB社はテムズ川の似た地点から水の供給していたが、A社は1852年には汚染の少ない上流に供給源を移動している。
ここで1849年と1854年をそれぞれ、介入前、介入後と考え、その前後で死者数を比べることを前後比較という。前後比較では、時期によるバイアスが入り込むため、前後比較のみでは効果検証することが難しい。
地域比較
A社とB社は同じ街に水を供給しているので、A社の水を利用していた人たちをトリートメントグループ、B社の水を利用していた人たちをコントロールグループとし、比較することを地域比較と呼ぶ。似た地域を選び、比較してもその地域固有のバイアスが入り込むことになるので、正確な効果検証をすることは難しい。
バイアスの少ない効果検証をするための結論は
性質の似た地域をコントロールグループとして準備し、介入前後の時期で比較をすれば、バイアス(地域や時期)を避けて効果検証することができる。
発想の根幹にあるのは、介入が行われなかった場合のコントロールグループをどうやって用意するかということである。また、別の言い方をすると、バイアスを減らすためのコントロールグループ(介入したこと以外性質が似ているグループ)をどうやって用意するかというところにある。
DIDで用意するコントロールグループに対して、1つだけ重要な前提を置いている。それが平行トレンド仮定。
平行トレンド仮定
コントロールグループとトリートメントグループで検証したい効果をみた場合、その効果量は平行にあることが前提となっている。
例えば地域AとBのコレラの死亡者数を見る場合、介入がなければAとBの死亡者数は平行になっていることが前提としてあげられる。もし仮に平行ではない場合、分析には平行の前提を崩す原因となる共変量を組み込む必要がある。
DIDが推定しているものを数式で
検証したい効果量を$\tau$とする。
$Y_{1854,treat}$が1854年のトリートメントグループにおける死亡者数
$Time_{1854}$が時間(1854年)の固有の効果量
$Area_{1854}$が地域(トリメートメントグループ)による効果量
$\tau$:が介入による効果量
Y_{1854,treat} = Time_{1854} + Area_{treat} + \tau ・・・①
Y_{1849,treat} = Time_{1849} + Area_{treat} ・・・②
Y_{1854,control} = Time_{1854} + Area_{control} ・・・③
Y_{1849,control} = Time_{1849} + Area_{control} ・・・④
上記の式を利用し効果量$\tau$を推定する。
step1:時間による前後比較をし、地域によるバイアスを取り除く。①ー②と③ー④を計算。
Y_{1854,treat} - Y_{1849,treat} = Time_{1854} - Time_{1849} + \tau ・・・⑤
Y_{1854,control} - Y_{1849,control} = Time_{1854} - Time_{1849} ・・・⑥
step2:地域間で比較をして、時間によるバイアスを取り除く。⑤ー⑥
Y_{1854,treat} - Y_{1849,treat} - ( Y_{1854,control} - Y_{1849,control} ) = \tau
これが検証したい効果量。
余談:DIDの考え方を発展させて(CausalImpact等)
DIDの肝になる部分は、「コントロールグループをどうやって用意するか」にある。DIDでは平行トレンド仮定を満たす似たグループを用意し対処する。そのような方法でも良いが、最近は機械学習によるトレンドの予測等が発達してきたので、予測を用いてコントロールグループを作成し、効果検証するような手法も存在する。
参考文献
効果検証入門〜正しい比較のための因果推論/計量経済学の基礎