概要
・3群以上で傾向スコアを用いるIPW(Inverse probability weighting = 逆重み付け)の方法について解説する。
・結論:下記数式のように、各データの傾向スコア(=その群に配属される確率)で逆重み付けをすれば良い。
\frac{Y_{t}}{e(t,X)}
ここで
・$Y$はアウトカム変数
・$e(t, X)$はユーザーの属性情報$X$から計算された$t \in (0,1,,,n)$群に配属される確率=傾向スコア
傾向スコアによる補正を用いる際の前提条件
2群のみの場合と3群以上の場合とで、前提とする条件が異なる。
Strong Unconfoundedness
2群の場合にIPWで必要とされる条件のことをStrong Unconfoundedness(参考文献では”強く無視できる割り当て”と呼ばれている、直訳で強い無交絡状態)と呼ぶ。
T \perp {Y_{(t)}} | X
これはユーザーの属性情報などのベクトルXで条件付けした時、群への割り当てTと全てのアウトカムYは独立であることを示す。
わかりやすくいうと、Xを与えた時、介入とアウトカムに関係はない。
Weak Unconfoundedness
3群以上のIPWで用いる場合の前提条件のこと。
まず、新しい記号を定義する。
D_{i}(t) = \left\{
\begin{array}{ll}
1 & (if \ \ T_{i} = t_{i}) \hspace{70mm}\\
0 & (otherwise)
\end{array}
\right.
$D_{i}$は$t_{i}$に配属された時には1をそれ以外に配属された場合は0を返す変数。
この時以下の条件を満たすとき、IPWを用い因果効果を不偏推定することができる
D(t) \perp Y(t) | X
for \ \ all \ \ t \in T
これを説明すると、Xを条件付けした時割り当て$D_{i}$と$Y_{i}$は独立である。これがWeakと呼ばれる理由は、割り当て$D_{i}$とその他のアウトカム$Y_{j}, i \neq j$は独立でもなくてもいいことを意味する。
Strong Unconfoundedness と Weak Un confoundednessの違い
論文では2つの言及がある
1つ目がこちら
Strong unconfoundedness requires the treatment T to be independent of the entire set of potential outcomes. Instead, weak unconfoundedness
requires only pairwise independence of the treatment with each of the p otential outcomes.
これが意味するところは
「Strong unconfoundednessは各群への配属と全てのアウトカム変数は独立である必要があるのに対し、Weak unconfoundednessは各群とそれぞれに対応するアウトカムが独立であれば良い」
2つ目がこちら
In addition weak unconfoundedness only requires the independence of the p otential outcome Y (t) and the treatment to be "local" at the treatment level of interest, that is independence of the binary treatment level indicator D(t), rather than of the treatment level T. This second di erence is immaterial in the binary treatment case.
意味するところが少しわからないが、Tはどのトリートメントに配属するか決める確率変数、一方DはTの結果を受けて0、1を返すダミー変数であり、Dとの独立性が満たされていれば十分ということか?
一般化傾向スコアによる逆重み付けが不偏推定量になる証明
\begin{flalign*}
& E_{y}\Big[\frac{Y * D_{t}}{r(T, X)}\Big] = E_{x}\Big[E_{y}\Big[\frac{Y * D_{t}}{r(T, X)} | X \Big]\Big] &\\
& =E_{x}\Big[E_{y}\Big[\frac{Y}{r(T, X)} | D_{t} = 1, X \Big] * Pr(D_{t} = 1 | X)\Big] &\\
& ここで D(t)=1となっている時Y=Y_{t}, T = tとなるので &\\
& =E_{x}\Big[E_{y}\Big[\frac{Y_{t}}{r(t, X)} | D_{t} = 1, X \Big] * Pr(D_{t} = 1 | X)\Big] &\\
& ここで、Weak \ unconfoundednessよりD_{t}とY_{t}は独立しているので &\\
& =E_{x}\Big[E_{y}\Big[\frac{Y_{t}}{r(t, X)} | X \Big] * Pr(D_{t} = 1 | X)\Big] &\\
& また、Pr(D_{t} = 1 | X) = r(t, X)であるので、 &\\
& =E_{x}\Big[E_{y}\Big[\frac{Y_{t}}{r(t, X)} | X \Big] * r(t, X)\Big] &\\
& =E_{x}\Big[E_{y}\Big[{Y_{t}} | X \Big] \Big] &\\
& =E_{y}\Big[{Y_{t}}\Big] &\\
\end{flalign*}
参考文献
imbens, G. (2000). The role of propensity score in estimating dose-response in observational studies for causal effect.
傾向スコア解析法による因果効果の推定と調査データの調整について(星野崇宏,繁桝算男, 2004)