はじめに
東京大学/株式会社Nospare リサーチャーの栗栖です.
今回の記事と次回の記事では距離空間に値をとるデータ(ランダムオブジェクト)に対する因果推論,特に平均処置効果を行う方法について紹介します.今回の記事では,アウトカムが確率分布データの場合について紹介します.この記事の内容は Lin, Kong and Wang (2023)をもとにしています.
平均処置効果:ユークリッドデータの場合
ここでは従来の平均処置効果(average treatment effect, ATE)の定義とその推定方法について紹介します.
ATE推定のための設定から始めましょう.
$n$個のユニット$i=1,\dots,n$に対して,$T_i$をそのユニットが処置(or 介入)を受けたかどうかを示す変数とします.即ち,$i$番目のユニットは,$T_i = 1$ならば処置を受け(=処置群),$T_i=0$であれば処置を受けない(コントロール群)とします.また処置を受けたかどうかで,$i$番目のユニットのアウトカム$Y_i \in \mathbb{R}$は潜在アウトカム$Y_i(1),Y_i(0)$を用いて以下のように与えられるとします.
Y_i =
\begin{cases}
Y_i(0) & \text{if $T_i=0$}\\
Y_i(1) & \text{if $T_i=1$}.
\end{cases}
ここでは特に,各ユニットにおいてアウトカム$Y_i$と処置ダミー変数$T_i$に加え,共変量$X_i \in \mathbb{R}^p$が観測可能であるとし,観測可能なすべてのデータ$\{Y_i,T_i,X_i\}_{i=1}^n$は独立同分布であるとします.
以上の設定の下,ATEは以下で定義されます.
\tau_{\mathrm{ATE}} = \mathbb{E}[Y_1(1) - Y_1(0)] = \mathbb{E}[Y_1(1)] - \mathbb{E}[Y_1(0)].
ATEについてのより詳しい解説は東北大学/Nospareの石原先生の記事も参照してください.
以下ではATEを doubly robust (DR) 推定量を用いて推定することを考えます.まず,ATEは適当な条件の下で,潜在アウトカムの条件付き期待値(アウトカム回帰関数) $m_t(x)=\mathbb{E}[Y_1(t)|X_1=x]$, $t=0,1$ と傾向スコア $p(x) = \mathbb{P}(T_1=1|X_1=x)$ を用いて以下のような表現 (DR表現) をもちます.
\begin{align*}
\tau_{\mathrm{ATE}} &= \mathbb{E}\left[{T_1Y_1 \over p(X_1)} + \left(1 - {T_1 \over p(X_1)}\right)m_1(X_1)\right]\\
&\quad - \mathbb{E}\left[{(1-T_1)Y_1 \over 1-p(X_1)} + \left(1 - {1-T_1 \over 1-p(X_1)}\right)m_0(X_1)\right].
\end{align*}
$\hat{m}_0(x)$, $\hat{m}_1(x)$, $\hat{p}(x)$をそれぞれアウトカム回帰関数,傾向スコアの推定量とすると,ATEの doubly robust 推定量は上記のDR表現の標本対応を考えることで以下の形で与えられます.
\begin{align*}
\hat{\tau}_{\mathrm{DR}} &= {1 \over n}\sum_{i=1}^n\left\{{T_iY_i \over \hat{p}(X_i)} + \left(1 - {T_i \over \hat{p}(X_i)}\right)\hat{m}_1(X_i)\right\}\\
&\quad - {1 \over n}\sum_{i=1}^n\left\{{(1-T_i)Y_i \over 1- \hat{p}(X_i)} + \left(1 - {1-T_i \over 1-\hat{p}(X_i)}\right)\hat{m}_0(X_i)\right\}.
\end{align*}
ATE の doubly robust 推定については東北大学/Nospareの石原先生の記事も参照してください.
平均処置効果:確率分布データの場合
以下ではLin, Kong and Wang (2023)で提案された,アウトカムが確率分布の場合の平均処置効果の定義とそのDR推定について紹介します.
確率分布をアウトカムとしてもつデータに対する個人分布処置効果 (individual distributional treatment effect)と平均分布処置効果(average distributional treatment effect, ADTE)の定義から始めましょう.
$n$個のユニット$i=1,\dots,n$に対して,$T_i$をそのユニットが処置(or 介入)を受けたかどうかを示す変数とします.即ち,$i$番目のユニットは,$T_i = 1$ならば処置を受け(=処置群),$T_i=0$であれば処置を受けない(コントロール群)とします.また処置を受けたかどうかで,$i$番目のユニットのアウトカム$Y_i$(区間$\mathcal{I}\subset \mathbb{R}$上のランダムな確率分布)は潜在アウトカム$Y_i(1),Y_i(0)$を用いて以下のように与えられるとします.
Y_i =
\begin{cases}
Y_i(0) & \text{if $T_i=0$}\\
Y_i(1) & \text{if $T_i=1$}.
\end{cases}
ここでは特に,各ユニットにおいてアウトカム$Y_i$と処置ダミー変数$T_i$に加え,共変量$X_i \in \mathbb{R}^p$が観測可能であるとし,観測可能なすべてのデータ$\{Y_i,T_i,X_i\}_{i=1}^n$は独立同分布であるとします.Lin, Kong and Wang (2023)では特に,潜在アウトカム$Y_i(t)$は$2$-Wassestein 空間
\mathcal{W}_2(\mathcal{I}) = \left\{\nu: \text{$\nu$は$\mathcal{I}$上の確率分布かつ$\int_{\mathcal{I}}t^2\nu(dt)<\infty$}\right\}
に値をとると仮定しています.このとき,個人分布処置効果を以下で定義します:
\Delta_i^{\lambda}(\cdot) = Y_i(1)^{-1} \circ \lambda(\cdot) - Y_i(1)^{-1} \circ \lambda(\cdot).
ここで,$\lambda(\cdot)$は区間$\mathcal{S} \subset \mathbb{R}$上の連続な分布関数(参照分布, reference distributionと呼ぶ)であり,$Y_i(t)^{-1}$は$Y_i(t)$の分位点関数,$Y_i(t)^{-1} \circ \lambda(\cdot) = Y_i(t)^{-1}(\lambda(\cdot))$です.また平均分布処置効果を以下で定義します:
\Delta^{\lambda}(\cdot) = (\mathbb{E}_\oplus[Y_1(1)])^{-1} \circ \lambda(\cdot) - \mathbb{E}_\oplus[Y_1(0)]^{-1} \circ \lambda(\cdot).
ここで,$\mathbb{E}_\oplus[Y_1(t)]$は以下で定義される$Y_i(t) \in \mathcal{W}_2(\mathcal{I})$のフレシェ平均です:
\mathbb{E}_\oplus[Y_1(t)] = \mathrm{argmin}_{\nu \in \mathcal{W}_2(\mathcal{I})}\left(\int_0^1(F_{Y_1(t)}^{-1}(s) - F_{\nu}^{-1}(s))^2ds\right).
ここで,$F_{Y_1(t)}^{-1}$, $F_{\nu}^{-1}$はそれぞれ$Y_1(t)$, $\nu$の分位点関数です.
ATEとの対応
潜在アウトカムが一点分布の場合,すなわち,ある実数$y_i(t)$が存在して,ディラック測度を用いて$Y_i(t) = \delta_{y_i(t)}$と表現できる場合を考えましょう.このとき,個人分布処置効果 (individual distributional treatment effect) は
\Delta_i^{\lambda}(\cdot) = y_i(1) - y_i(0)
となり,その期待値をとると,
\mathbb{E}[\Delta_i^{\lambda}(\cdot)] = \mathbb{E}[y_i(1) - y_i(0)] = \mathbb{E}[y_i(1)] - \mathbb{E}[y_i(0)]
となり,ユークリッドデータの場合のATEに一致します.
分位点処置効果との違い
- ADTEにおいて参照分布を$\lambda(s) = s$, 即ち,$[0,1]$上の一様分布とすると,
\Delta^{\lambda}(\cdot) = (\mathbb{E}_\oplus[Y_1(1)])^{-1}(\cdot) - \mathbb{E}_\oplus[Y_1(0)]^{-1}(\cdot).
となり,潜在アウトカムの期待値(フレシェ平均)の分位点関数の差として表されます.
- またユークリッドデータの場合(特に$Y_i \in \mathbb{R}$の場合),DTEと似た概念として,以下の分位点処置効果 (quantile treatment effect, QTE) が知られています.
\tau_{\mathrm{QTE}}(\alpha) = F_{Y_1(1)}^{-1}(\alpha) - F_{Y_1(0)}^{-1}(\alpha),\ \alpha \in [0,1].
ここで,$F_{Y_1(t)}^{-1}(\cdot)$は潜在アウトカム$Y_1(t)$の分位点関数です.$\tau_{\mathrm{QTE}}(\alpha)$は一般に個人処置効果$Y_i(1) - Y_i(0)$の$\alpha$分位点としての解釈できませんが,ADTEは(個人処置効果を特別な場合として含む)個人分布処置効果の期待値として解釈できる点が異なります.
ADTEのDR推定
以下ではADTEを doubly robust (DR) 推定量を用いて推定することを考えます.まず,ADTEは適当な条件の下で,以下で定義される潜在アウトカムの条件付き期待値(アウトカム回帰関数) $m_t^\lambda(x):[0,1] \to \mathbb{R}$
\begin{align*}
m_t^\lambda(x)&:=(m_t^\lambda(x))(\cdot)\\
& =(\mathbb{E}_\oplus[Y_1(t)|X_1=x])^{-1} \circ \lambda(\cdot)\\
&= \mathbb{E}[Y_1(t)^{-1}\circ \lambda(\cdot)|X_1=x]:[0,1] \to \mathcal{I}.
\end{align*}
と傾向スコア $p(x) = \mathbb{P}(T_1=1|X_1=x)$ を用いて以下のような表現 (DR表現) をもちます.
\begin{align*}
\Delta^{\lambda}(\cdot) &= \mathbb{E}\left[{T_1Y_1^{-1} \circ \lambda \over p(X_1)} + \left(1 - {T_1 \over p(X_1)}\right)m_1^\lambda(X_1)\right]\\
&\quad - \mathbb{E}\left[{(1-T_1)Y_1^{-1} \circ \lambda \over 1-p(X_1)} + \left(1 - {1-T_1 \over 1-p(X_1)}\right)m_0^\lambda(X_1)\right].
\end{align*}
$\hat{m}_0^\lambda(x)$, $\hat{m}_1^\lambda(x)$, $\hat{p}(x)$をそれぞれアウトカム回帰関数,傾向スコアの推定量とすると,ATEの doubly robust 推定量は上記のDR表現の標本対応を考えることで以下の形で与えられます.
\begin{align*}
\hat{\tau}_{\mathrm{DR}} &= {1 \over n}\sum_{i=1}^n\left\{{T_iY_i^{-1} \circ \lambda \over \hat{p}(X_i)} + \left(1 - {T_i \over \hat{p}(X_i)}\right)\hat{m}_1^\lambda(X_i)\right\}\\
&\quad - {1 \over n}\sum_{i=1}^n\left\{{(1-T_i)Y_i^{-1} \circ \lambda \over 1- \hat{p}(X_i)} + \left(1 - {1-T_i \over 1-\hat{p}(X_i)}\right)\hat{m}_0^\lambda(X_i)\right\}.
\end{align*}
Lin, Kong and Wang (2023)では,$n \to \infty$としたときの$\hat{\tau}_{\mathrm{DR}}$の漸近的性質について調べられています.特に,$\{\hat{\tau}_{\mathrm{DR}}(s):s \in \mathcal{S}\}$の信頼バンドを構成する方法や$\hat{\tau}_{\mathrm{DR}}$をクロスフィッティング(cross-fitting, CF)型の推定量に拡張する方法についても紹介されています.ユークリッドデータの場合にATEをCFを用いて推定する方法については,石原先生の記事も参照してください.
適用例
Lin, Kong and Wang (2023)では,応用例として,ウェアラブルデバイスのデータ分析を行っています.このデータでは,$5524$人の一週間の運動強度をウェアラブルデバイスを用いて記録したデータを標準化して確率分布データ(アウトカム)としています.この分析において,処置はアンケート項目における, 既婚 ($T_i=1$, 2682人) or 独身 ($T_i=0$, 2842人)であり,共変量として被験者の年齢と性別が使われています.
まとめ
この記事では確率分布データに対する因果推論の方法(Lin, Kong and Wang (2023))について紹介しました.次回の記事では,この記事で紹介した方法の拡張として,一般の距離空間に値をとるアウトカムを扱うための因果推論の枠組みと平均処置効果の推定方法 (Kurisu et al.(2024)) について解説する予定です.株式会社Nospareには統計学の様々な分野を専門とする研究者が所属しています.統計アドバイザリーやビジネスデータ分析につきましては株式会社Nospareまでお問い合わせください.

参考文献
[1] Kurisu, D., Zhou, Y., Otsu, T. and Mueller, H.-G. (2024) Geodesic causal inference. arXiv:2406.19604.
[2] Lin, Z., Kong, D. and Wang, L. (2023) Causal inference on distribution functions. Journal of the Royal Statistical Society Series B. 85, 378-398.