因果推論を行う際、想定されるコントロール変数は潜在的には数多く存在する。各変数についての交差項や2次以降の項・非線形なトレンドまで考えだすと、かなり High-dimentional になることが想定される。
それの解決策として、Belloni et al.(2014, REStud) で考案された推定方法が、PDS Lasso (Post-Double-Selection Lasso) である。
※間違いを見つけた方は、編集リクエストをお願いします。
Set up
次のModel を考える。
$$y_{i} = \alpha d_{i}+\beta_{1} x_{i, 1}+\ldots+\beta_{p} x_{i, p}+\varepsilon_{i} \tag{1}$$
treatment variable は $d_i$ である。
PDS Lasso を使う問題意識
問題意識
(1)式をそのまま Lasso で推定することもできる。
しかし、その場合「$d_i$に強い影響を与えるが、$y_i$にはあまり影響を与えない」 control variable を、Lasso によって落としてしまう。
対処方法
control variable について、$y_i$ への Lasso 回帰と $d_i$ への Lasso 回帰のどちらか一方でも選択がなされた変数を使う。
推定方法
-
Step 1 : control variable について $y_i$ への回帰を行う
- ここで選択された変数の集合を A とする
$$
y_{i}=\beta_{1} x_{i, 1}+\beta_{2} x_{i, 2}+\ldots+\beta_{j} x_{i, j}+\ldots+\beta_{p} x_{i, p}+\varepsilon_{i} \tag{A}
$$
-
Step 2 : control variable について、$d_i$ への回帰を行う
- ここで選択された変数の集合を B とする
$$
d_{i}=\beta_{1} x_{i, 1}+\beta_{2} x_{i, 2}+\ldots+\beta_{j} x_{i, j}+\ldots+\beta_{p} x_{i, p}+\varepsilon_{i} \tag{B}
$$
- Step 3 : $d_i$ を treatment variable、 $\mathbf{w}_{i}=A \cup B$ を control variable として、下記の OLS を行う
y_{i} = {\alpha} d_{i} + \mathbf{w}_{i}^{\prime} \beta + \varepsilon_{i}
Lasso でのペナルティ項を選択する方法
- 交差検証 (Cross validation)
- データをいくつかに分け、out-of-sample の予測が一番いいものを選択する
- Rigorous penalization
- AICなどの情報量基準を用いて決める
Stata コマンドの使い方
必要なpackageのインストール
ssc install lassopack
ssc install pdslasso
基本的なSyntax
pdslasso dep_var d_varlist (hd_controls_varlist),[options]
-
d_varlist
: 処置効果を見たい変数 -
hd_controls_varlist
: High-dimention な制御変数のリスト-
##
で2変数を結合することで、交互作用項と主効果の両方を表現できる - ただし連続変数の場合は、連続変数名の前に
c.
をつける必要性がある
-
Donoue-Levitt の Replication で使用されている options
-
partial(varlist)
: Step 1,2 には含めない control variables-
pnotpen(varlist)
: Step 1,2 で penalize させない variables
-
-
lopt(options)
: rlasso (Step 1,2 の Rigorous Lasso 用のオプション) -
fe
: Fixed-effect model を使って推定する
そのほか有用なオプション
-
rlasso
: 途中で行われる Rigorous Lassoの結果も表示させ、結果を保存しておく
Reference
論文
- Ahrens, A., Hansen, C. B., & Schaffer, M. E. (2018). "LASSOPACK and PDSLASSO: Prediction, model selection and causal inference with regularized regression." In London Stata Conference 2018 (No. 12). Stata Users Group.
- Belloni, Alexandre, Victor Chernozhukov, and Christian Hansen. (2014). "High-Dimensional Methods and Inference on Structural and Treatment Effects." Journal of Economic Perspectives, 28 (2): 29-50.
- Belloni, A., Chernozhukov, V., Hansen, C. and Kozbur, D. (2016). "Inference in High Dimensional Panel Models with an Application to Gun Control." Journal of Business and Economic Statistics 34(4):590-605.
Web ページ
- Stata Lasso Page : https://statalasso.github.io/
- help page : https://statalasso.github.io/docs/ivlasso_help/
- Stataの因子変数について : https://www.lightstone.co.jp/stata/stata11_factor_variables.html