Rubin流(潜在反応モデル、欠測データ)とPearl流(構造的因果モデル)があり、この本はPearl流。Rubin流の方が実用的。
1章 用語整理
構造的因果モデル(SCM:Structural Causal Model)
変数の集合$U,V$、関数の集合$f$
$U$は外生変数。先祖はない変数
$V$は内生変数。少なくとも1つの外性変数の子孫。$f$と$U$によって決まる
例
$U=\{X,Y\}, V=\{Z\}, F=\{f_z\}$
$f_z:Z=2X+3Y$
SCMに対応するグラフィカル因果モデル(DAG)
2章 基本規則
連鎖経路における条件付き独立
変数$X$と$Y$の間に道が一つだけ存在し、変数の集合$Z$がその道を遮断する場合、$X$と$Y$は$Z$の下で条件付き独立である
分岐経路における条件付き独立
変数$X$が$Y,Z$の原因で、$Y$と$Z$の間の道が一つだけ存在する場合、$X$の下で$Y$と$Z$は条件付き独立である
合流経路における条件付き従属
変数$Z$が$X$と$Y$の間の合流点で、$X$と$Y$の間の道が一つだけ存在する場合、$X$と$Y$は周辺独立であるが、$Z$または$Z$の子孫の下で条件付き従属である
条件付き独立とは、$P(A|B,C)=P(A|C)$が成り立つ時、$C$の下で$A$と$B$は条件付き独立であるという
条件付き従属とは、$P(A|B,C)\neq P(A|C)$が成り立つ時、$C$の下で$A$と$B$は条件付き従属であるという
おそらく従属とは、$P(A|B)\neq P(A)$が成り立つ時、$A$と$B$はおそらく従属という
条件付き独立や条件付き従属は、統計的因果推論で定義される言葉なので確率論で一般に使われる用語ではない。訳も適切なのかよくわからない。
モンティホール問題
3つのドアがあり、各ドアの向こう側には新車、ヤギ、ヤギがある。
あなたがあるドアを選んだあと、モンティはヤギのいるドアを開いてくれる。
この後、あなたは選んだドアを変更した方がよいのか?
合流経路なので、モンティが開けたドアの下で、新車があるドアはあなたは選んだドアに従属する
d分離性
道$p$がノードの集合$Z$によってブロックされているとは、
$p$は連鎖$A \rightarrow B \rightarrow C$または、分岐$A \leftarrow B \rightarrow C$を含み、中央のノードが$Z$に含まれる($B$について条件付けしている)または、$p$は合流$A \rightarrow B \leftarrow C$を含み、合流点$B$が$Z$に含まれないこと。さらに$B$の子孫も$Z$に含まれないこと。
$Z$がノード$X$と$Y$の間のすべての道をブロックするとき、$Z$が与えれた下で$X$と$Y$はd分離されているという。すなわち、$Z$が与えられた下で$X$と$Y$は条件付き独立であるときd分離されているという。
3章 介入
この章から初出の言葉の説明が無く、難解。
併合データ?(p73)
層別データ?(p73)
フィルタリング?(p75)
ランダム化比較試験?(p75)
母集団で$X$が$x$である確率、$P(Y=y|X=x)$
変数$X$が$x$に固定された場合の確率、$P(Y=y|do(X=x))$
因果効果差(ACE(average causal effect))
$P(Y=1|do(X=1))-P(Y=1|do(X=0))$
$X=${$0,1$}
調整化公式
変数$X$に介入する手順
①グラフ$G$において$X$の親から$X$へ向かう辺を取り除く
②変数Yの条件付き確率を求める、条件はYへ向かうノード(変数)が該当
条件付き $do(X)$を展開する考え方は、条件付き確率の公式$P(y,x,z)=P(y|x,z)P(x|z)P(z)$において、介入した変数が$x$の時、$x$は固定化なので$P(x|z)=1$となる。従って$P(y,z|do(x))=P(y|x,z)P(z)$
調整化公式
グラフ$G$において$X$の親を$PA$とする時、$X$が$Y$に及ぼす因果効果($X$に介入)は、上記の公式を適用するため$Z$により周辺化を施し、公式が適用できる状態にすることで
$P(Y=y|do(X=x))$
$=\sum_{z}P(Y=y,PA=z|do(X=x))$
$=\sum_{z}P(Y=y|X=x,PA=z)P(PA=z)$
で与えられる。これは$Z$による調整と呼ばれる。
$P(Y=y|do(X=x))= \sum_{w}P(Y=y|X=x,W=w)P(W=w) $
トランケート乗法公式
調整化公式の考え方に従うと、変数の集合$X$に介入した時の同時分布は以下となる
$P(x_{1},x_{2},\cdots,x_{n}|do(X))$
$x_{i}$は互いに独立なので、$P(A,B)=P(A|B)P(B)=P(A)P(B)$
$=\prod_{x_{i}}P(x_{i}|PA(x_{i}),do(X))$
$do(X)$は値固定で親がないので項として消える
$=\prod_{x_{i}}P(x_{i}|PA(x_{i}))$ただし$x_{i} \notin X$
$P(z_1,z_2,w,y)|do(X=x,Z_3=z_3))$
$= P(y|X=x,Z_3=z_3,z_1,z_2,w)P(z_1,z_2,w))$
$y$は$X=x,z_1$と条件付き独立なので
$= P(y|z_3,z_2,w)P(z_1,z_2,w)$
$= P(y|z_3,z_2,w)P(w|z_2,z_1)P(z_2|z_1)P(z_1)$
$z_2$と$z_1$と条件付き独立なので
$= P(y|z_3,z_2,w)P(w|z_2,z_1)P(z_2)P(z_1)$
$w$に入るのは
$= P(y|w,z_3,z_2)P(w|x)P(z_2)P(z_1) $
バックドア基準
ここまでで、ある変数が他の変数に与える効果をしらべるのには、その変数の親について調整すればよかった。しかし変数の親の値が観測されない場合もある。その場合は別の変数について調整を行いたいがその手段のひとつとしてバックドア基準がある。
非巡回的有効グラフ$G$において変数の順序対$(X,Y)$が与えられた時、変数の集合$Z$に含まれるいかなるノードも$X$の子孫でなく、かつ$X$と$Y$の間の道で$X$へ向かうすべての辺を$Z$がブロックするとき$Z$は$(X,Y)$についてバックドア基準を満たすという
($Y$→$X$間はノードがないことを前提としている)
なぜバックドア基準を満たす変数を見つけたいのか?
・$Y$と$X$の間において$X$へ向かう辺を持つ擬似パスがあると$X$の影響と交絡してしまうため、ノードに条件付けする、すなわち条件付けするノードに向かう親からのパスを削除することで、ブロックしたい。
・$X$と$Y$の間を結ぶ道がなければ、$X$配下は、$Y$の直接の影響と判断してよい。
・$X\leftarrow Z\rightarrow Y$、$X\leftarrow Z\leftarrow Y$は$Z$で条件つけると$Y$と$X$は独立
・$X\rightarrow Z\leftarrow Y$は、$Z$で条件つけると新たなパスができて、バックドア基準をみたさない
・$X\rightarrow Z\rightarrow Y$は、もともと$Y$は$X$に影を与えない。また、$Z$は$X$の子孫であることにも注意
※合流点において条件付けをおこなった場合は、あらたなパスが発生する(従属の関係を辺としたもの)ので注意。道を開くと言う。なお2章の基本規則でみたように条件付き従属が発生するのは合流点がある時のみ
※擬似パス:$Y$→$X$間はノードがないことを前提としていて、$Y$→$X$以外のパス
※バックドアパス:バックドア基準を満たすパス
$Z$がバックドア基準を満たすならば、$Z$dによる調整が行える
変数$X$に介入した時の親$PA(X)$はバックドア基準を満たす
$Z$dによる調整とは、$Z$について条件付けするとも言う
$X$から$Y$への影響について、一見バックドア基準を満たす変数はない。
しかし、$W$について条件付けをすると$X$と$Y$の間の擬似パス$X\leftarrow W\leftarrow Z\leftarrow T\rightarrow Y$ができる。
さらに、$T$について条件付けすると$T$がバックドア基準を満たす
$P(Y=y|do(X=x),W=w)$
$=\sum_{t}P(Y=y|X=x,W=w,T=t)P(T=t|X=x,W=w)$
フロントドア基準
変数の集合$Z$が以下の条件を満たす時、$Z$は順序対$(X,Y)$についてフロントドア基準を満たす
- $Z$は$X$から$Y$への有効道をすべてブロックする
- $X$から$Z$へのバックドアパスは存在しない
- $Z$から$Y$への全てのバックドアは$X$によりブロックされている
フロントドア調整
$Z$が$(X,Y)$についてフロントドア基準を満たし、$P(x,z)>0$であるならば、$X$から$Y$への因果効果は識別可能であり以下で与えられる
$P(y|do(x))=\sum_{z}P(y|do(z))P(z|do(x))$
※これは形式的な式変形ではないが、$P(y|do(x))=\sum_{z}P(y|z,do(x))P(z|do(x))$において$X$から$Z$へのバックドアパスは存在しないので$do(x)$で固定されれば、$do(z)$と固定され$do(x)$は無視できるイメージ
ここで$PA$を$x$の親とした調整化公式から
$P(y|do(x))=\sum_{z}P(y|x,PA=z)P(PA=z)$
ここでは、$X$は$Z$の親になっているので入れ替えて
$P(y|do(z))=\sum_{x}P(y|z,x)P(x)$
また、フロントドア基準を満たすので、バックドアパスがなく、条件付けしても変わらないため、以下が成り立つ
$P(z|do(x))=P(z|x)$
最終的に以下が成立する。
$P(y|do(x))=\sum_{z}P(z|x)\sum_{x^{'}}P(y|x^{'},z)P(x^{'})$
特定z効果
介入後に$Z=z$となるグループについての介入効果$P(Y=y|do(X=x),Z=z)$を特定$z$効果という
$S\cup Z$がバックドア基準を満たす$S$が計測可能であれば特定$z$効果は以下の調整式で与えられる
$P(Y=y|do(X=x),Z=z)=\sum_{s}P(Y=y|X=x,S=s,Z=z)P(S=s,Z=z)$
※バックドア基準を満たさないといけないので$S$として合流点は含められない
同様に$P(Y=y|do(X=g(Z))$も計算できる
$P(Y=y|do(X=g(Z))=\sum_{z}P(Y=y|do(X=g(Z)),Z=z)P(Z=z|do(X=g(Z)))$
ここで、$X$は$Z$の関数であるので固定化することは無意味で、$P(Z=z|do(X=g(Z))=P(Z=z)$となり
$P(Y=y|do(X=g(Z))=\sum_{z}P(Y=y|do(X=g(Z)),Z=z)P(Z=z)$
逆確率重み付け法
$Z$について調整することが難しい場合の計算方法
$P(y|do(x))=\sum_{z}P(Y=y|X=x,Z=z)P(Z=z)$
$=\sum_{z}\frac{P(Y=y|X=x,Z=z)P(X=x|Z=z)P(Z=z)}{P(X=x|Z=z)}$
$=\sum_{z}\frac{P(Y=y,X=x,Z=z)}{P(X=x|Z=z)}$
※ただしこの方法は条件付けをするので$\frac{1}{P(X=x|Z=z)}$の$Z$がバックドア基準を満たす時のみ有効
媒介
$Z$が$X$と$Y$間の媒介変数であるとき$X$の値を$x$から$x^{'}$へ変化させた時の$Y$の制御された直接効果CED(controlled direct effect)は以下で与えられる
$P(Y=y|do(X=x),do(Z=z))-P(Y=y|do(X=x^{'}),do(Z=z))$
$P(Y=y|do(X=x),do(Z=z))$は以下の2条件をみたせば求めることができる
- $Z$から$Y$へのバックドアパスをすべてブロックする変数の集合$S_{1}$が存在する
- $Z$へ向かう矢印をすべて削除した時$X$から$Y$へのバックドアパスをすべてブロックする変数の集合$S_{2}$が存在する
CDE(controlled direct effect)
$X$を$x$から$x^{'}$へ変化させた時$Y$の制御された直接効果
$P[Y=y|do(X=x),do(Z=z)]-P[Y=y|do(X=x^{'}),do(Z=z)]$
線型システム
線型システムの回帰係数は、因果分析での条件付き確率に対応する。回帰係数が0であれば他の変数の下で、条件付き独立になる。
直接効果は、構造方程式の係数
総合効果は、バックドアパスで無いパスのパス係数を掛け合わしたもの
回帰式に含まれる変数の特定とその係数がどのような効果を表しているかを解明できれば、回帰分析を因果効果の推定に応用できる。
パス係数(構造係数)
操作変数?
直接効果$DE=E[Y|do(x,z)]-E[Y|do(x^{'},z)]$
間接効果$IE=\tau -DE$
4章 反事実
構造モデル$M$、$M$を修正して$X$の等式を$X=x$でおきかえたものを$M_{x}$とすると反事実の定義は以下
$Y_{x}(u)=Y_{M_{x}}(u)$
ことばで説明すると、反事実$Y_{x}(u)$は外科手術を施したサブモデル$M_{x}$で$Y$について解いた答え。
反事実は構造方程式の派生的性質。要するに構造方程式。
$do(X=x)$との違い
$do(X=x)$は、母集団全部について変数$X$の値が$x$に固定化された場合の期待値などの確率的な値。母集団の振る舞いを表す。
反事実は介入する個体と介入しない個体があり、個体の振る舞いを表す。
一般に$do$表記法では反事実をとらえることはできないが、反事実の表記は介入後の表現を扱える
$X=U_{1}$
$Z=aX+U_{2}$
$Y=bZ$
$X=1$は大学を卒業、$U_{2}=1$は職務経験があること、$Z$は職務の必要スキル、$Y$は年収を指すとすると
$E[Y_{X=1}|Z=1]$は、スキルレベルが$Z=1$である人について(実際には大卒でない人が)大学を卒業していた場合の年収の期待値
$E[Y|do(X=1),Z=1]$は大学を卒業し、スキルレベルが$Z=1$である人の期待値
一般に$E[Y|do(X=1),Z=1]$は$E[Y_{X=1}|Z_{X=1}=1]$へ変換できる
SEM?
反事実の一致性
もし$X=x$ならば、$Y_{x}=Y$
$Y=XY_{1}+(1-X)Y_{0}$
例
$U$は母集団の個別ユニット(1人のメンバー、自然におこる1つの状況)を表す
補習: $X=U_{X}$
宿題: $H=aX+U_{H}$
試験の点数: $Y=bX+cH+U_{Y}$
$ここでa=0.5, b=0.7, c=0.4とする$
Joeは$X=0.5, H=1, Y=1.5$であったとき
$U_{X}=X=0.5$
$U_{H}=H-aX=1-0.5 * 0.5=0.75$
$U_{Y}=Y-bX-cH=1.5-0.7 * 0.5-0.4 * 1=0.75$
で特徴つけられる。もしJoeが$H$を2にしたならば
$Y_{H=2}(U_{X}=0.5, U_{H}=0.75, U_{Y}=0.75)=0.7 * 0.5+0.4 * 2+0.75=1.90$
反事実を計算するステップ
決定論的モデル版
- 仮説形成:証拠$E=e$を用いて$U$の値を計算する
- 行動:モデル$M$において$X$に含まれる変数について構造方程式を$X=x$に変更し、修正モデル$M_{x}$を得る
- 予測:修正モデル$M_{x}$を用いて、$U$の値から反事実の結果$Y$を計算する
確率論的モデル版
- 仮説形成:証拠$E=e$を用いて$P(U)$を更新し$P(U|E=e)$を得る
- 行動:モデル$M$において$X$に含まれる変数について構造方程式を$X=x$に変更し、修正モデル$M_{x}$を得る
- 予測:修正モデル$M_{x}$および$U$に含まれる変数についての更新された確率$P(U|E=e)$を用いて、反事実の結果$Y$を得る
期待値の反事実をつかうと母集団の一部に対する行動や政策の効果を推定する際に、その集団を定義する特徴自体が政策の影響を受ける場合に利用できる
反事実は構造方程式の派生的性質と思って問題ない
確率の計算方法
構造方程式を用いて、$X(u),Y(u),X_{y}(u),Y_{x}(u)$を計算する
各$u$に対し$P(U=u)$の値が決まっていれば、例えば、$Y_{x}=v$を満たす$u$がわかり確率が計算できる
例
$X=U$
$Y=X+U$
のモデルにおいて、母集団には3タイプを$U=${$1,2,3$}とする。
それぞれの確率は
$P(U=1)={1\over{2}}, P(U=2)={1\over{3}}, P(U=3)={1\over{6}}$
とする。
$U$がきまれば、$X,Y$の値がきまる。
$X(u)$ | $Y(u)$ | |
---|---|---|
$U$=1 | 1 | 2 |
$U$=2 | 2 | 4 |
$U$=3 | 3 | 6 |
また、反事実も$U$に対して求めることができる。
$X_{1}(u)$ | $X_{2}(u)$ | $X_{3}(u)$ | |
---|---|---|---|
$U$=1 | 1 | 1 | 1 |
$U$=2 | 2 | 2 | 2 |
$U$=3 | 3 | 3 | 3 |
$Y_{1}(u)$ | $Y_{2}(u)$ | $Y_{3}(u)$ | |
---|---|---|---|
$U$=1 | 2 | 3 | 4 |
$U$=2 | 3 | 4 | 5 |
$U$=3 | 4 | 5 | 6 |
以上から$P(Y_{2}>3,Y_{1}<4)$を求めようとすると、
$Y_{2}>3かつY_{1}<4$は$U=2$の時のみなので${1\over{3}}$などと計算できる。
このように$x=1$と$x=2$の異なる世界の確率をもとめることができる。
また、条件付き確率$P(Y_{3}>Y|Y>2)={P(Y_{3}>Y,Y>2)\over P(Y>2)}={{1\over 3}\over{{1\over 3}+{1\over 6}}}$なども定義されている。
グラフを用いた解説
$Y_x$は、$X$が$x$に固定化された条件での$Y$の値になるので、$X$へ向かう矢印を全て取り除く
バックドアの反事実的解釈
変数の集合$Z$が$(X,Y)$についてのバックドア基準をみたすならば、$Z$が与えられた下での反事実$Y_x$と$X$はすべての$x$について条件付き独立である
$P(Y_x|X,Z)=P(Y_x|Z)$
$P(Y_x|X,Z)=\sum_z P(Y_x=y|Z=z)P(z)$
$=\sum_z P(Y_x=y|Z=z,X=x)P(z)$
$=\sum_z P(Y=y|Z=z,X=x)P(z)$
年収はスキルによってのみ決定するが、
スキルレベルが$Z=z$である人が教育$X=x$としたとき(反事実)年収に影響が及ぶ理由は、
$X$と$U_{Z}$は$Z$が与えられたもとでd分離していない($Z$または$Y$の下で条件付き従属)ため。
($Y_{x}$は$U_{Z}$のみに影響をうけるため、$X=x$の反事実時の影響が及ぶ)
$E[Y_{x}|X,Z]\neq E[Y_{x}|Z]$
$E[Y|X,Z]]=E[Y|Z]$であるにもかかわらずである。
線型モデルの場合
$X$から$Y$の総合効果の傾きを$\tau$とする
$\tau =E[Y|do(x+1)]-E[Y|do(x)]$
このときどの証拠$Z=e$についても
$E[Y_{X=x}|Z=e]=E[Y|Z=e]+\tau (x-E[X|Z=e])$
($Z=e$での$Y$の条件付き期待値を求めることで、$X=x$の世界での$Y$の期待値を求められる)
この定理より、母集団データからある個体の仮定的な問いに答えがだせる
例
処置群での処置効果 ETT(effect of treatment on the treated)
$EET=E[Y_{1}-Y_{0}|X=1]$
$=E[Y_{1}|X=1]-E[Y_{0}|X=1]$
$=E[Y|X=1]+\tau (1-E[X|X=1])-(E[Y|X=1]+\tau (0-E[X|X=1]))$
$=\tau$