More than 5 years have passed since last update.

因果推論でコントロール変数の選択にLassoを使う：PDS Lasso

lasso

Last updated at 2019-11-23Posted at 2019-11-23

因果推論を行う際、想定されるコントロール変数は潜在的には数多く存在する。各変数についての交差項や2次以降の項・非線形なトレンドまで考えだすと、かなり High-dimentional になることが想定される。
それの解決策として、Belloni et al.(2014, REStud) で考案された推定方法が、PDS Lasso (Post-Double-Selection Lasso) である。

※間違いを見つけた方は、編集リクエストをお願いします。

Set up

次のModel を考える。

$$y_{i} = \alpha d_{i}+\beta_{1} x_{i, 1}+\ldots+\beta_{p} x_{i, p}+\varepsilon_{i} \tag{1}$$

treatment variable は $d_i$ である。

PDS Lasso を使う問題意識

問題意識

(1)式をそのまま Lasso で推定することもできる。
しかし、その場合「$d_i$に強い影響を与えるが、$y_i$にはあまり影響を与えない」 control variable を、Lasso によって落としてしまう。

対処方法

control variable について、$y_i$ への Lasso 回帰と $d_i$ への Lasso 回帰のどちらか一方でも選択がなされた変数を使う。

推定方法

Step 1 : control variable について $y_i$ への回帰を行う
- ここで選択された変数の集合を A とする

$$
y_{i}=\beta_{1} x_{i, 1}+\beta_{2} x_{i, 2}+\ldots+\beta_{j} x_{i, j}+\ldots+\beta_{p} x_{i, p}+\varepsilon_{i} \tag{A}
$$

Step 2 : control variable について、$d_i$ への回帰を行う
- ここで選択された変数の集合を B とする

$$
d_{i}=\beta_{1} x_{i, 1}+\beta_{2} x_{i, 2}+\ldots+\beta_{j} x_{i, j}+\ldots+\beta_{p} x_{i, p}+\varepsilon_{i} \tag{B}
$$

Step 3 : $d_i$ を treatment variable、 $\mathbf{w}_{i}=A \cup B$ を control variable として、下記の OLS を行う

y_{i} = {\alpha} d_{i} + \mathbf{w}_{i}^{\prime} \beta + \varepsilon_{i}

Lasso でのペナルティ項を選択する方法

交差検証 (Cross validation)
- データをいくつかに分け、out-of-sample の予測が一番いいものを選択する
Rigorous penalization
- AICなどの情報量基準を用いて決める

Stata コマンドの使い方

必要なpackageのインストール

ssc install lassopack
ssc install pdslasso

基本的なSyntax

pdslasso dep_var d_varlist (hd_controls_varlist),[options]

d_varlist : 処置効果を見たい変数
hd_controls_varlist : High-dimention な制御変数のリスト
- ##で2変数を結合することで、交互作用項と主効果の両方を表現できる
- ただし連続変数の場合は、連続変数名の前にc.をつける必要性がある

Donoue-Levitt の Replication で使用されている options

partial(varlist) : Step 1,2 には含めない control variables
- pnotpen(varlist) : Step 1,2 で penalize させない variables
lopt(options) : rlasso (Step 1,2 の Rigorous Lasso 用のオプション)
fe : Fixed-effect model を使って推定する

そのほか有用なオプション

rlasso : 途中で行われる Rigorous Lassoの結果も表示させ、結果を保存しておく

Reference

論文

Ahrens, A., Hansen, C. B., & Schaffer, M. E. (2018). "LASSOPACK and PDSLASSO: Prediction, model selection and causal inference with regularized regression." In London Stata Conference 2018 (No. 12). Stata Users Group.
Belloni, Alexandre, Victor Chernozhukov, and Christian Hansen. (2014). "High-Dimensional Methods and Inference on Structural and Treatment Effects." Journal of Economic Perspectives, 28 (2): 29-50.
Belloni, A., Chernozhukov, V., Hansen, C. and Kozbur, D. (2016). "Inference in High Dimensional Panel Models with an Application to Gun Control." Journal of Business and Economic Statistics 34(4):590-605.

Web ページ

Stata Lasso Page : https://statalasso.github.io/
- help page : https://statalasso.github.io/docs/ivlasso_help/
Stataの因子変数について : https://www.lightstone.co.jp/stata/stata11_factor_variables.html

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up