はじめに
東北大学/株式会社Nospareの石原です.前回の記事では,通常の線形モデル1に基づいて操作変数法を紹介しました.後半の本記事では,反実仮想モデルに基づいて操作変数法の仮定や結果の解釈について紹介します.
反実仮想モデルとは
因果推論やプログラム評価の分野では,ある処置 $X$ が目的変数 $Y$ に与える処置効果(treatment effect)に関心があります.この処置効果を明確に定義するために,因果推論やプログラム評価の分野で標準的な反実仮想(counterfactual)フレームワークを導入します.
処置を受けた時に実現するであろう潜在的な目的変数を $Y(1)$,受けなかった時に実現するであろう潜在的な目的変数を $Y(0)$ とします.また,$X$ を処置を受けた時に1,処置を受けなかった時に0を取るダミー変数とします.このとき,$Y(0), Y(1)$ はそれぞれ $X=0, 1$ の時にしか観測できないので,観測できる $Y$ は次のように表現することができます:
Y = X Y(1) + (1-X) Y(0) = \left\{
\begin{array}{ll}
Y(1) & (X=1) \\
Y(0) & (X=0)
\end{array}
\right.
このようなモデルを考えることで処置効果 $Y(1)-Y(0)$ を定義することができます.$Y(0)$ と $Y(1)$ を同時に観測することはできないので,一般的に $Y(1)-Y(0)$ を知ることはできません.そのため,因果推論やプログラム評価の分野では,処置効果の何らかの平均を推定することを考えます.
反実仮想モデルに基づく操作変数法
$Y$ を目的変数,$X$ を処置を受けたかどうかを表すダミー変数,$Z$ を操作変数とし,$Z \rightarrow X \rightarrow Y$ の順にデータが生成されるという状況を考えます.このとき,$Z$ をダミー変数とすると,以下のような反実仮想モデルを考えることができます:
X = ZX(1) + (1-Z)X(0) = \left\{ \begin{array}{ll}
X(1) & (Z=1) \\
X(0) & (Z=0)
\end{array}
\right.
Y = \left\{ \begin{array}{ll}
Y(1,1) & (X=1, Z=1) \\
Y(1,0) & (X=1, Z=0) \\
Y(0,1) & (X=0, Z=1) \\
Y(0,0) & (X=0, Z=0)
\end{array}
\right.
このような反実仮想モデルの下では,$Y(1,Z)-Y(0,Z)$ が処置効果となります.本記事では,操作変数 $Z$ が適当な仮定を満たせば,局所的平均処置効果(LATE; local average treatment effect)というパラメータを識別できることを紹介します.
次の仮定が成り立つとします:
- $x=0,1$ に対して,$Y(x,1)=Y(x,0)=Y(x)$ が成り立つ.
- $(Y(1),Y(0),X(1),X(0))$ と $Z$ は独立である.
- $P(X(1) \neq X(0)) > 0$ が成り立つ.
- $X(1) \geq X(0)$ が成り立つ.
1つ目の仮定は除外制約(exclusion restriction)と呼ばれる仮定で,操作変数 $Z$ は処置 $X$ を通してしか目的変数 $Y$ に影響を与えないということを意味しています.これは前回の記事で紹介したモデルでは,モデルの回帰式に $Z$ が含まれていないことに対応しています.少し仮定は違いますが,2つ目と3つ目の仮定は前回紹介した操作変数の外生性と関連性の仮定に対応します.最後の仮定は単調性(monotonicity)と呼ばれており,操作変数によって影響を受ける人の影響の方向は同じであることを仮定しています.この仮定の下では,操作変数が1の時には処置を受けないが,操作変数が0の時には処置を受ける(つまり,$X(1)=0$ かつ $X(0)=1$)という人は存在しません.したがって,$(X(1), X(0))$ の取りうる値の組み合わせは
X(1) = X(0) = 1, \\
X(1) = X(0) = 0, \\
1 = X(1) > X(0) = 0
の3パターンとなります.ここで,1つ目,2つ目,3つ目の式を満たす人たちはそれぞれ always-taker,never-taker,complier と呼ばれています.また,$X(1)=0, X(0)=1$ という人たちは defier と呼ばれています.以降では,この4つの仮定の下で
$$
\text{LATE} = E[Y(1)-Y(0)|X(1)>X(0)]
$$
が識別できることを示します.
LATE の識別を示すために,次の変数を導入します:
T = \left\{ \begin{array}{ll}
a & (X(1) = X(0) = 1) \\
n & (X(1) = X(0) = 0) \\
c & (X(1)=1, X(0)=0) \\
d & (X(1)=0, X(0)=1)
\end{array}
\right.
このとき,単調性の仮定から $P(T=d)=0$ が成り立ちます.よって,外生性の仮定から,
\begin{align}
E[X|Z=1] - E[X|Z=0] & = P(X(1) = 1) - P(X(0)=1) \\
& = P(T=a) + P(T=c) - P(T=a) \\
& = P(T=c)
\end{align}
が得られます.さらに,$T$ と $Z$ の値が決まれば $X$ の値も決まるので,
\begin{align}
E[Y|Z=1]& = \sum_{t \in \{a,n,c\}} E[Y|T=t,Z=1] P(T=t|Z=1) \\
&= E[Y(1)|T=a] P(T=a) + E[Y(0)|T=n] P(T=n) \\
& \hspace{1.5in} + E[Y(1)|T=c]P(T=c)
\end{align}
が成り立ちます.同様に,
\begin{align}
E[Y|Z=0] &= E[Y(1)|T=a] P(T=a) + E[Y(0)|T=n] P(T=n) \\
& \hspace{1.5in} + E[Y(0)|T=c]P(T=c)
\end{align}
が成り立ちます.したがって,単調性と関連性の仮定から $P(T=c) = P(X(1)>X(0)) > 0$ となるので,
$$
\frac{E[Y|Z=1]-E[Y|Z=0]}{E[X|Z=1] - E[X|Z=0]} = E[Y(1)-Y(0)|T=c] = \text{LATE}
$$
が成り立ちます.以上から,4つの仮定の下で LATE が識別できることが分かりました.
線形モデルに基づく操作変数法との違い
前回紹介した線形モデルでは,潜在的な目的変数を
$$
Y(x) = \beta_0 + \beta_1 x + U, \ \ x = 0,1
$$
と定義していると解釈することができます.このモデルの下では,処置効果は $Y(1) - Y(0) = \beta_1$ となるので,すべての個人で処置効果が等しいという仮定を課していることになります.したがって,このモデルの下では,LATE は平均処置効果(ATE; average treatment effect) $E[Y(1)-Y(0)]$ と一致します.
上の線形モデルの場合,処置効果 $\beta_1$ は $Cov(Z,Y) / Cov(Z,X)$ で識別することができます.一方で,$X, Z$ が0か1の値しか取らないことに注意すると,
$$
\frac{E[Y|Z=1]-E[Y|Z=0]}{E[X|Z=1] - E[X|Z=0]} = \frac{Cov(Z,Y)}{Cov(Z,X)}
$$
となります.したがって,反実仮想モデルの場合でも,線形モデルの場合と全く同じ推定量を用いて LATE を推定することができることが分かります.
前回の記事で紹介したように,線形回帰モデルでは,操作変数が関連性と外生性を満たせば処置効果 $\beta_1$ が識別できます.つまり,関連性と外生性を満たす操作変数なら,どの操作変数を用いても識別されるパラメータは変わりません.しかし,上で紹介した反実仮想モデルの下では,操作変数が変われば $X(1)>X(0)$ となる人たちは変わるので,識別されるパラメータが操作変数によって変化することが分かります.したがって,同じ推定方法を用いても,線形モデルと反実仮想モデルのどちらを採用するかによって推定されたパラメータの解釈は異なります.
最後に
今回紹介したように,処置効果の異質性を考慮するかどうかによって,モデルに必要な仮定や識別されるパラメータが変化することがあります.また,このような異質性の存在を示唆する実証結果も多く存在します.そのため,計量経済学では,通常の線形モデルより複雑な,観測できない異質性を考慮したモデルが多く開発されています.今回は紹介できませんでしたが,異質性を考慮したより複雑な操作変数モデルもいずれ紹介したいと思います.
株式会社Nospareでは統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospareまでお問い合わせください.
-
前回の記事では,「線形回帰モデルに基づいて操作変数法を紹介する」と書きましたが,説明変数と誤差項が相関する場合には「線形回帰モデル」という言葉は適当ではないと思うので,本記事では前回の記事で紹介した操作変数法を「線形モデルに基づく操作変数法」と呼ぶことにします. ↩