忙しい人向けの結論
・RDD(回帰不連続デザイン)は介入により発生した境界線上付近のサンプルが同質であることを仮定し、介入により発生している差を因果効果として推定する分析。
・説明変数と目的変数に非線形な関係がある場合、回帰式に多項式や交差項を入れることで因果効果を推定できる。
・バイアスを小さくする方法は複数あり、1つは回帰式に共変量を入れること。他の方法として、分析に活用するband幅を調整することが挙げられる。
RDD(回帰不連続デザイン)を利用する状況とは
ある閾値を基準に介入するかしないかを決めている場合に利用する。
例えば、メール施作を実施する際に、昨年の商品購入量が一定の基準を超えている顧客は購入見込みの高い顧客として、メールを送信するといったことがある。この場合、傾向スコアもIPWもDIDも使えない。なぜならば、商品購入量が一定の基準を満たしている場合、傾向スコアは1、それ以外の場合傾向スコアは0というようになり、傾向スコアによる調整ができないからだ。DIDは顧客全体に対してメール送信のルールを設けているので、コントロールグループを用意することができず使えない。このように全体に対して、何らかの基準により、介入をするか否かを決めている場合、RDDを使うことで効果検証をする。
RDDのアイデア
介入があった閾値の前後ではサンプルの性質は変わらないという発想のもと分析を行なっている。
ここで閾値のことをカットオフと呼び、介入を決定する際の基準になる変数のことをrunning variabeと呼ぶ。
もし仮にRDDを利用せずに、カットオフ周辺の値の平均で効果検証をした場合にどのような結果が出るか数式で表現し、バイアスがどのようなものか確認する。
\tau_{naive} = \mathbb{E}[Y^{1} | Z = 1] - \mathbb{E}[Y^{0} | Z = 0] \\
= \tau + \mathbb{E}[Y^{0} | Z = 1] - \mathbb{E}[Y^{0} | Z = 0] \\
ここでZ=1、Z=0はrunning varivableのカットオフ値Aによって決まるので書き換えると下記のようになる。
=\tau + \mathbb{E}[Y^{0} | RunningVaribale >= A] - \mathbb{E}[Y^{0} | RunningVaribale < A]
ここで$\tau$は本当の効果量
$\mathbb{E}[Y^{0} | RunningVaribale >= A] - \mathbb{E}[Y^{0} | RunningVaribale < A]$はセレクションバイアスである。
平均の差を集計した場合はこのセレクションバイアスが生じる。
例えば、running variableを昨年の商品購入量で、購入量がA以上の場合はメールを送信する、また以下の場合はメールを送信しないと考える。セレクションバイアスをこの例の文脈で説明すると、$\mathbb{E}[Y^{0} | RunningVaribale >= A]$は昨年の商品購入量がA以上だった人たちの今年の潜在的な商品購入量を示し、$\mathbb{E}[Y^{0} | RunningVaribale < A]$は昨年の商品購入量がA以下だった人たちの今年の潜在的な商品購入量を示す。この差分は大きくなると考えられ、セレクションバイアスはおそらく大きい。
RDDではこのバイアスを小さくすることを考える。
RDDでバイアスを小さくするために
セレクションバイアスを小さくする方法はシンプルで、バイアスを発生させているrunning variable(共変量)を重回帰分析に含めれば良い。
上記の例で言えば、昨年の商品購入量を重回帰分析の説明変数に含めるとバイアスをコントロールできる。
数式を記載する。もし説明変数と目的変数に非線形の関係があれば、非線形の共変量などを入れることでバイアスを小さくできるので、いろいろ試す必要がある。
Y = \beta_0 + \beta_1 * treatment + \beta_2 * RunningVariable + e
この時、推定できるものはLATEと呼ばれるものになる。
Local Average Treatment Effect(LATE) = RDDで推定しているもの
カットオフ周辺の値で推定した効果のこと。別の言い方をすると、RDDによって求められる効果は一部のサンプルで確認された因果効果であるとも言える。
カットオフ近辺のデータしか利用していない場合もLATEとなり、したがって、この結果がカットオフをほかの値に変えた時にも援用できるとは限らないことは注意。
nonparametric RDD
これは活用するデータをカットオフの前後に限定することでバイアスを小さくする方法である。これを別の言い方をすると$\mathbb{E}[Y^{0} | RunningVaribale < A]$と$\mathbb{E}[Y^{0} | RunningVaribale >= A]$の近くデータはほぼ同じであることに仮定している。
横軸をbound(閾値からどのくらいのデータを活用するか)の幅、縦軸を推定値としたグラフを確認すると、バイアスとバリアンスのトレードオフを確認することができる。
RDDでの仮定
①Continuity of Conditional Regression Functions
もし、介入がなければ、連続して同じような傾向が続いていたと仮定すること。数式で表現すると、$\mathbb{E}[Y^{1} | X]$と$\mathbb{E}[Y^{0} | X]$がXに対して連続であることを仮定している。これが満たされない状況としてXに対して、別の介入も加えて行なっている時などが挙げられる。
②non-mainpulation
ユーザーなどのカットオフされている変数が、自身の意思などで介入グループに入っている場合、カットオフ変数によるバイアスが生じている。
カットオフ前後でデータの密度に差がある場合、このバイアスが生じている可能性があるので注意。
参考文献
効果検証入門〜正しい比較のための因果推論/計量経済学の基礎