はじめに
東北大学/株式会社Nospareの石原です.今回は,Athey and Imbens (2006) によって提案された Changes-in-Changes (CIC) モデルを紹介します.CICモデルとは,計量経済学の分野でよく使われている Difference-in-Differences (DID) モデルを一般化した非加法的なモデルです.本記事では,CICモデルとその識別方法について紹介します.
DIDモデルとCICモデル
処置を受けたときに実現するであろう潜在的な目的変数を $Y_{it}(1)$,処置を受けなかったときに実現するであろう潜在的な目的変数を $Y_{it}(0)$ と表記します.ここで,$i$ は観察個体,$t = 0, 1$ は観測時点を表すとします.このとき,次のような反実仮想モデルを考えます:
Y_{it} = \left\{
\begin{array}{ll}
Y_{it}(1) & (G_i =1, t=1) \\
Y_{it}(0) & (\text{otherwise})
\end{array}
\right.
つまり,$t=0$ 時点ではすべての観察個体が処置を受けておらず,$t=1$ 時点では処置群($G_i=1$)に属する観察個体のみ処置を受けるという状況を考えています.
CICモデルでは,観測できない変数 $U_{it}$ が存在し,潜在的な結果変数 $Y_{it}(0)$ が次の式を満たすと仮定します:
Y_{it}(0) = h(U_{it}, t) \hspace{1in} (1)
ここで,$h(u,t)$ は $u$ について単調増加な関数です.標準的なDIDモデルでは,$Y_{it}(0)$ は
Y_{it}(0) = \alpha + \beta \cdot t + \gamma \cdot G_i + \epsilon_{it} \hspace{1in} (2)
を満たすと仮定されるので,$U_{it} = \gamma \cdot G_i + \epsilon_{it}$ と考えれば,CICモデルは標準的なDIDモデルを非線形に拡張していることが分かります.
標準的なDIDモデル (2) では,$E[\epsilon_{it}|G_i]=0, \ t = 0,1$ と仮定されます.この仮定の下で,モデル (2) は平行トレンドの仮定
E[Y_{i1}(0)|G_i=1] - E[Y_{i0}(0)|G_i=1] = E[Y_{i1}(0)|G_i=0] - E[Y_{i0}(0)|G_i=0]
を満たします.したがって,$E[\epsilon_{it}|G_i]=0, \ t = 0,1$ を仮定すると
\begin{align}
E[Y_{i1}(1)-Y_{i1}(0)|G_i=1] & = \left( E[Y_{i1}|G_i=1] - E[Y_{i0}|G_i = 1] \right) \\
& \hspace{0.5in} - \left( E[Y_{i1}|G_i=0] - E[Y_{i0}|G_i = 0] \right)
\end{align}
が成り立ち,$\text{ATT} = E[Y_{i1}(1)-Y_{i1}(0)|G_i=1]$ が識別できることが分かります.ここで,$U_{it} = \gamma \cdot G_i + \epsilon_{it}$ とすると,$E[\epsilon_{it}|G_i]=0, \ t = 0,1$ は
E[U_{i1}|G_i = g] = E[U_{i0}|G_i=g], \ \ g = 0,1 \hspace{1in} (3)
を意味します.
CICモデルでは,(3) の条件を強めた
U_{i1}|G_i=g \ \overset{d}{=} \ U_{i0}|G_i=g, \ \ g = 0,1 \hspace{1in} (4)
という仮定を用います.ここで,(4) は $G_i=g$ で条件づけた下で $U_{i1}$ と $U_{i0}$ の条件付き分布が等しいということを意味しています.以降では,(1) と (4) の仮定の下で $\text{ATT}$ が識別できることを示していきます.
CICモデルの識別
以下の4つの条件を仮定します:
- すべての $i$ と $t$ に対して,潜在的な結果変数 $Y_{it}(0)$ は (1) 式を満たす.
- すべての $t$ に対して,関数 $h(u,t)$ は $u$ について単調増加である.
- すべての $i$ に対して,$U_{i0}$ と $U_{i1}$ は (4) 式を満たす.
- すべての $g$ に対して,$U_{it}|G_i=g$ の条件付き分布のサポートは $\mathbb{R}$ である.
上で議論したように,1つ目と3つ目の仮定はDIDモデルを非線形に拡張したものです.2つ目の仮定は,観測できない変数 $U_{it}$ と $Y_{it}(0)$ が1対1の関係にあることを表しています.4つ目の仮定は,2つ目の仮定と組み合わせると,$Y_{it}(0)$ が連続に分布することを意味しています.Athey and Imbens (2006) では,4つ目の仮定より弱い仮定を用いて分析していますが,簡単のため,この記事ではこの仮定を用います.
$Y_{it}|G_i=g$ の条件付き分布関数を $F_{gt}(y)$ と表記し,その分位点関数を $F_{gt}^{-1}(q)$ と表記することにします.このとき,1つ目と2つ目の仮定から,$(g,t) = (0,0), (0,1), (1,0)$ に対して
\begin{align}
F_{gt}(y) & = P \left( Y_{it} \leq y | G_i=g \right) = P \left( Y_{it}(0) \leq y | G_i=g \right) \\
&= P \left( h(U_{it},t) \leq y | G_i=g \right) = P( U_{it} \leq h^{-1}(y,t) | G_i=g ) \hspace{1in} (5) \\
\end{align}
が成り立ちます.ここで,$h^{-1}(y,t)$ は $h(u,t)$ の $u$ についての逆関数です.3つ目の仮定から $U_{it}|G_i=g$ の条件付き分布は $t$ に依存しないので,この条件付き分布関数を $H_g(u)$ と表すことにすると,(5) 式は
F_{gt}(y) = H_g \left( h^{-1}(y,t) \right), \ \ (g,t) = (0,0), (0,1), (1,0)
と書くことができます.また,4つ目の仮定から $H_g(u)$ は単調増加関数なので,条件付き分位点関数 $F_{gt}^{-1}(q)$ は次の式を満たします:
F^{-1}_{gt}(q) = h \left( H_g^{-1}(q),t \right), \ \ (g,t) = (0,0), (0,1), (1,0)
ここで,$H_g^{-1}(q)$ は $H_g(u)$ の逆関数です.以上から,
\begin{align}
F_{10} \left( F_{00}^{-1} \left( F_{01}(y) \right) \right) & = F_{10} \left( h \left( H^{-1}_0 \circ H_0 \left( h^{-1}(y,1) \right) , 0 \right) \right) \\
&= H_1 \left( h^{-1} \left( h \left( h^{-1}(y,1) , 0 \right) , 0 \right) \right) \\
&= H_1 \left( h^{-1}(y,1) \right) = P \left( Y_{i1}(0) \leq y | G_i=1 \right) \hspace{1in} (6)
\end{align}
が成り立ちます.ここで,(6) の最後の等式は (5) 式と同様の計算から導くことができます.したがって,観測できる $F_{00}$,$F_{01}$,$F_{10}$ という3つの分布から,観測できない $Y_{i1}(0)|G_i=1$ の分布を識別できることが分かります.
(6) 式の結果から,
\begin{align}
P \left( F_{01}^{-1}\left( F_{00} \left( Y_{i1} \right) \right) \leq y | G_i=0 \right) & = P \left( Y_{i1} \leq F_{00}^{-1} \left( F_{01}(y) \right) | G_i=0 \right) \\
& = F_{10} \left( F_{00}^{-1} \left( F_{01}(y) \right) \right) = P \left( Y_{i1}(0) \leq y | G_i=1 \right)
\end{align}
が成り立つことが分かります.これは,$F_{01}^{-1}\left( F_{00} \left( Y_{i1} \right) \right)|G_i=0$ の分布は $Y_{i1}(0) | G_i=1$ の分布と等しいことを意味しています.したがって,
E\left[ F_{01}^{-1}\left( F_{00} \left( Y_{i1} \right) \right)|G_i=0 \right] = E \left[ Y_{i1}(0) | G_i=1 \right]
が成り立ちます.$n_g$ を $G_i=g$ のサンプルサイズとすると,この結果から $\text{ATT}$ は
\begin{align}
\widehat{\text{ATT}} = \frac{1}{n_1} \sum_{i:G_i=1} Y_{i1} - \frac{1}{n_0} \sum_{i: G_i=0} \hat{F}_{01}^{-1} \left( \hat{F}_{00} ( Y_{i1} ) \right)
\end{align}
で推定することができることが分かります.ここで,$\hat{F}^{-1}_{01}$ と $\hat{F}_{00}$ はそれぞれ $F_{01}^{-1}$ と $F_{00}$ の推定量です.
CICモデルの利点と欠点
CICモデルには大きく2つの利点があります.1つ目は,CICモデルが非加法的な時間効果を許していることです.DIDモデルでは,平行トレンドの仮定を満たすために加法的な時間効果しか許されていませんでしたが,CICモデルは関数 $h(u,t)$ を通して複雑な時間効果を許しています.また,DIDモデルでは,$Y_{it}(0)$ 自体は平行トレンドの仮定を満たしていても,その単調変換である $\log Y_{it}(0)$ などが平行トレンドの仮定を満たすとは限りません.一方,$Y_{it}(0)$ がCICモデルの仮定を満たせば $Y_{it}(0)$ の単調変換もCICモデルの仮定を満たすので,CICモデルを用いる場合は結果変数のスケーリングの問題を気にする必要はありません.
2つ目の利点は,CICモデルでは $Y_{i1}(0) | G_i=1$ の分布自体を推定することができることです.実証研究では,処置が結果変数の平均に与える影響だけでなく,結果変数の分布に与える影響にも興味がある場合があります.標準的なDIDモデルでは,平均についてしか仮定されていないので,このような効果を推定することができませんが,CICモデルでは処置が結果変数の分位点に与える影響(分位点処置効果)なども推定することができます.DIDモデルを分位点に拡張するもう1つの方法として,$Y_{it}(0)$ の条件付き分位点関数が平行トレンドの仮定を満たすように仮定するという方法がありますが,すべての分位点で平行トレンドの仮定を課すことは非常に強い制約になります.この方法やCICモデルと異なるアプローチで分位点処置効果を推定した論文としては,Callaway and Li (2019) があります.Callaway and Li (2019) では,コピュラが時間に影響を受けないという仮定を用いて $Y_{i1}(0) | G_i=1$ の分布を推定しています.
CICモデルの欠点としては,共変量をモデルに組み入れるのが難しいという問題があります.通常のDIDモデルでは,共変量を $X_{it}$ とすると,
Y_{it}(0) = \alpha + \beta \cdot t + \gamma \cdot G_i + X_{it}' \delta + \epsilon_{it}
のようにモデルに共変量を追加します.CICモデルでも同様に,
Y_{it}(0) = h(U_{it}, t) + X_{it}' \delta
というモデルを考えることはできますが,セミパラメトリックモデルとなるので推定が難しくなります.Athey and Imbens (2006) では回帰により $\delta$ を推定する方法を提案していますが,共変量と $U_{it}$ に強い仮定を課す必要があり,あまり現実的でない仮定を課す必要があります.共変量があるCICモデルのより現実的な推定方法は,Melly and Santangelo (2015),Sawada (2019),Ishihara (2022) などで提案されています.
最後に
今回は,Athey and Imbens (2006) によって提案されたCICモデルという非加法的なモデルを紹介しました.DIDモデルのサーベイ論文によると,最後に紹介した問題点のため,CICモデルは実証研究でほとんど使われていないようです.しかし,最近のいくつかの論文で共変量がある場合のCICモデルの推定方法が提案されているので,興味のある人は是非CICモデルを使ってみてください.
株式会社Nospareでは統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospareまでお問い合わせください.
参考文献
- Athey, S., & Imbens, G. W. (2006). Identification and inference in nonlinear difference‐in‐differences models. Econometrica, 74(2), 431-497.
- Callaway, B., & Li, T. (2019). Quantile treatment effects in difference in differences models with panel data. Quantitative Economics, 10(4), 1579-1618.
- Ishihara, T. (2022). Panel Data Quantile Regression for Treatment Effect Models. Journal of Business & Economic Statistics, 1-17.
- Melly, B., & Santangelo, G. (2015). The changes-in-changes model with covariates. Universität Bern, Bern.
- Sawada, M. (2019). Noncompliance in randomized control trials without exclusion restrictions. arXiv preprint arXiv:1910.03204.