効果が広範囲に影響するような介入(法律の施行やスーパーの値引きなど)では、結果変数Yに地域固有の特性が含まれてしまい介入群と非介入群の単純な比較ができない。そこで、各グループの時系列データで介入前後の時点の差分を取り、その後にグループ間の差分を取る、という差の差分析(DID法)を学ぶ。
例:A県で、県外からの観光客にお土産を無料配布する(介入)。この介入によって県外からの観光客は増えるのかどうかを知りたいとする。非介入群として、お土産配布を行わないB県のデータを用いる。A、Bにおいて、介入前と介入後の県外からの観光客の人数は以下のようであった。
介入前 | 介入後 | 差 | |
---|---|---|---|
介入群A | 320 | 280 | -40 |
非介入群B | 290 | 200 | -90 |
このデータについて、介入後のA、Bを比較して「Aの方が80多いので効果は80」としたり(地域間の特性の違いを無視)、Aの介入前後を比較して「介入後のほうが40少ないので効果は-40」とする(介入以外の共変量の影響を無視)ことはできない。DID法では次のようなモデルを考える。
\begin{align}
Y_{post,A}&= Time_{post}+Area_A+\tau\\
Y_{pre,A} &=Time_{pre}+Area_A\\
Y_{post,B}&=Time_{post}+Area_B\\
Y_{pre,B} &=TIme_{pre}+Area_B
\end{align}
ここで、Areaは変化しない地域固有の特性(人口など)、Timeは時間と共に変化するA、B共通の共変量(季節など)である。ただし、観測されない交絡因子の影響は不変であるとし、Timeに含まれる共変量の変化の仕方は一定であるとする(平行トレンド仮定)。このモデルを仮定することで、介入効果$\tau$は、
\tau=(Y_{post,A}-Y_{pre,A})-(Y_{post,B}-Y_{pre,B})=(280-320)-(200-290)=50
と、時点間の差分をそれぞれ取ったのち地域間の差分を取る(差の差をとる)ことで求められる。
※CausalImpactの話もしているが、簡単化のために時系列モデルを端折っているせいでだいぶ薄い内容になっている。実装するほどではないかな、と思うので時系列モデルを勉強してから戻ってきたい。
※CausalImpactのアイデア:コロナ対策の政策実施前のデータについて、PCR検査数などから陽性患者数を推定するモデルを作って政策効果を評価する。