はじめに
東北大学/株式会社Nospareの石原です.今回は,前回紹介した回帰非連続デザイン (Regression Discontinuity Design; RDD) の識別条件について解説します.
回帰非連続デザインの識別条件
前回の記事で紹介したように,次の仮定が回帰非連続デザインでの処置効果の識別条件となります:
\text{$E[Y_i(d)|X_i=x]$ が閾値 $c$ で連続である.}
回帰非連続デザインの設定については前回の記事を参照してください.この仮定は Hahn, Todd, and Van der Klaauw (2001) という論文で提案されたので,以降ではこの仮定を HTV 条件と呼びます.この仮定の下で,
\begin{align}
& \lim_{x \downarrow c} E[Y_i|X_i=x] - \lim_{x \uparrow c} E[Y_i|X_i=x] \\
= & \lim_{x \downarrow c} E[Y_i(1)|X_i=x] - \lim_{x \uparrow c} E[Y_i(0)|X_i=x] \\
= & E[Y_i(1)-Y_i(0)|X_i=c]
\end{align}
となるので,ランニング変数が閾値の人に対する平均処置効果 $E[Y_i(1)-Y_i(0)|X_i=c]$ が識別できます.したがって,HTV 条件が成り立てば,$\lim_{x \downarrow c} E[Y_i|X_i=x]$ と $\lim_{x \uparrow c} E[Y_i|X_i=x]$ を推定することで平均処置効果が推定することができます.
平均処置効果が識別できるかを確かめるためには,HTV 条件が成り立っているかどうかを確認する必要があります.しかし,$E[Y_i(1)|X_i=x]$ については閾値の右側,$E[Y_i(0)|X_i=x]$ については閾値の左側しか観測することができないので,$E[Y_i(d)|X_i=x]$ が閾値で連続であるかどうかをデータから直接確認することはできません.そこで,Lee (2008) と McCrary (2008) は間接的に HTV 条件を検証する方法を提案しています.
識別条件が成り立たない状況
HTV 条件を間接的に検証する方法を紹介する前に,まずはどのような状況のときに HTV 条件が成り立たないのかを考えます.例として,ある授業の単位取得が留年率 ($Y_i$) に与える影響を分析したいとします.試験の点数 ($X_i$) が合格点 ($c$) 以上の学生だけが単位を取得できるという状況を考えます.このとき,ギリギリ合格した学生のグループ ($c \leq X_i < c+\epsilon$) とギリギリ不合格だった学生のグループ ($c - \epsilon < X_i < c$) が平均的に同じような特徴を持っていれば HTV 条件は成り立ちます.試験に不正がなければ,この仮定は合理的だと考えられます.しかし,試験に不正があり試験の点数が操作されている場合,この仮定は成り立たない可能性があります.例えば,採点者の教員が,講義を真面目に受講していた一部のギリギリ不合格の学生を合格点以上になるように操作しているとします.このような状況では,ギリギリ不合格だったグループは,ギリギリ合格したグループより不真面目な学生の割合が大きくなるかもしれません.したがって,このようにランニング変数(上の例では,試験の点数)が操作されている場合には HTV 条件が成り立たないことがあります.
識別条件のテスト
上で紹介したようなランニング変数の操作 (manipulation) があるかどうかを調べるために,Lee (2008) と McCrary (2008) は2つの方法を提案しています.1つ目の方法は,ランニング変数の密度関数 $f(x)$ を調べるという方法です.もしランニング変数が操作されていなければ,多くの場合,ランニング変数の密度関数は閾値で連続になると考えられます.上の例では,試験の点数が操作されていなければ,試験の点数の密度関数は閾値で連続になるはずです.しかし,上で紹介したような操作が行われている場合,ギリギリ不合格の学生 ($c - \epsilon < X_i < c$) よりギリギリ合格の学生 ($c \leq X_i < c+\epsilon$) の方が多くなるので,密度関数 $f(x)$ が閾値で不連続になると考えられます.したがって,
\lim_{x \downarrow c} f(x) \ = \ \lim_{x \uparrow c} f(x) \hspace{0.8in} (1)
となるかどうかを調べることで,ランニング変数が操作されているかどうかを調べることができると考えられます.
2つ目の方法は,ランニング変数より前に決定されている共変量 $W_i$ を用いるという方法です.もしランニング変数が操作されていなければ,ランニング変数が閾値より少し大きいグループと閾値より少し小さいグループは同じ特徴を持っていると考えられます.例えば,$W_i$ を試験前の成績とすると,ギリギリ不合格だった学生 ($c - \epsilon < X_i < c$) とギリギリ合格した学生 ($c \leq X_i < c+\epsilon$) の成績 $W_i$ の分布は等しくなると考えられます.しかし,上で紹介したような操作が行われている場合,ギリギリ不合格だった学生の成績はギリギリ合格した学生の成績より低くなるかもしれません。したがって,
\lim_{x \downarrow c} E[W_i | X_i = x] \ = \ \lim_{x \uparrow c} E[W_i | X_i = x] \hspace{0.8in} (2)
となるかどうかを調べることで,ランニング変数の操作があるかどうかを調べることができると考えられます.
いくつかの論文で (1) と (2) を検定する方法が提案されています.(1) の検定については,R の "rddensity" というパッケージを使うことができます.(2) の検定については,$Y_i$ を $W_i$ に置き換えれば,$ATE = 0$ の検定と同じなので,平均処置効果の推定と同様に "rdrobust" というパッケージを使うことができます.また,Fusejima, Ishihara, and Sawada (2022) では,(1) と (2) を同時に検定する方法を提案しています.
最後に
今回は,回帰非連続デザインの識別条件について解説しました.回帰非連続デザインの推定が上手くいっているかどうかは HTV 条件が成り立つかどうかに依存します.そのため,実証分析では HTV 条件を検証することが非常に重要となります.今回の記事では,HTV 条件を間接的に検定する2つの方法を紹介しました.
株式会社Nospareでは統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospareまでお問い合わせください.
参考文献
- Fusejima, K., Ishihara, T., & Sawada, M. (2022). Joint diagnostic test of regression discontinuity designs: multiple testing problem. arXiv preprint arXiv:2205.04345.
- Hahn, J., Todd, P., & Van der Klaauw, W. (2001). Identification and estimation of treatment effects with a regression-discontinuity design. Econometrica, 69(1), 201-209.
- Lee, D. S. (2008). Randomized experiments from non-random selection in US House elections. Journal of Econometrics, 142(2), 675-697.
- McCrary, J. (2008). Manipulation of the running variable in the regression discontinuity design: A density test. Journal of Econometrics, 142(2), 698-714.