TL;DR
下記の論文で個々人グループ(heterogeneous)の因果効果の推定にランダムフォレストを利用する手法が提案されています。
本ブログでは、その論文の内容を整理し、特に、なぜランダムフォレストが異質な因果効果の推定に適しているのかをまとめます。
元論文: [1510.04342] Estimation and Inference of Heterogeneous Treatment Effects using Random Forests
事前共有情報
個々人グループ因果効果の定義
heterogeneousは「異質な」という意味がありますが、このブログでは「個々人グループの因果効果」と訳しています。というのも、論文の目標としているのは、共変量 $X$ に依存する因果効果 $\tau(x)$ の推定だからです。
仮に、「異質な因果効果」と訳すと、個々人グループの因果効果を指しているのか、あるいは因果効果自体が異質であることを指しているのかが曖昧になると感じました。
論文で書かれている内容
問題設定 (2.1章より)
$Y_i$ を個体 $i$ のアウトカム、$X_i$ を個体 $i$ の共変量、$W_i$ を個体 $i$ の処置変数 (treatment variable) とします。この際に、$Y_i(1)$ もしくは $Y_i(0)$ のどちらか一方しか観測できない状況下で下記を推定することを考えます。
\begin{aligned}
\tau(x) = \mathbb{E}[Y_i(1) - Y_i(0) | X_i = x]
\end{aligned}
既存の手法とその問題 (1章より)
古典的(Classical)な手法の限界
- Nearest-Neighbor Matching(最近傍マッチング)
- Kernel Methods
- Series Estimation
上記の手法は、共変量の数が小さいときには有効ですが、高次元の共変量に対してはうまく機能しない状況でした。
個々人グループの因果効果を取り扱う手法の課題
- サンプルサイズ不足:標本をサブグループに分割して因果効果を推定する手法をすると、サブグループの数が増えるにつれて、各サブグループの標本数が減少する問題が発生します。
- 探索の偏り:研究者が高い治療効果を示すサブグループを繰り返し探索し、極端な効果を持つサブグループの結果のみを報告することで、偽り(supurious)な発見が生じる可能性があります。
- 評価の困難さ:個々人グループの因果効果の推定手法の性能を評価することが難しいです。なぜなら、真の個々人グループの因果効果は観測できないため、推定結果と比較する基準が存在しないからです。
ランダムフォレストを因果推論で用いることの問題点
推定器が仮説検定や信頼区間を確立できるようにするためには、一致性があり、漸近標本分布が十分に理解されていることが理想的ですが、従来のランダムフォレストの漸近特性(asymptotics)は、標準的な回帰や分類の文脈でさえほとんど未解決のままでした。
本手法の概要(2, 3章より)
本手法を用いる条件
本手法では「非交絡性(Unconfoundedness)」(共変量 $X$ を条件付けることで、処置変数 $W$ とアウトカム $Y$ の間の交絡を排除できるというもの)を満たす状況下で、ランダムフォレストを用いて個々人グループの因果効果 $\tau(x)$ を推定します。
\begin{aligned}
W_i \perp (Y_i(0), Y_i(1)) | X_i
\end{aligned}
というのも、上記を仮定すると傾向スコア $e(x) = \mathbb{E}[W_i | X_i = x]$ を推定することができれば、$\tau(x)$ を次のように表現できるからです。
\begin{aligned}
\tau(x) = \mathbb{E}\left[\frac{W_i Y_i}{e(X_i)} - \frac{(1 - W_i) Y_i}{1 - e(X_i)} \Bigg| X_i = x\right]
\end{aligned}
推定量
木を構成したあとに、各葉ノード $L(x)$ における因果効果の推定量を用います。
つまり、数式で表現すると下記のようになります。
\begin{aligned}
\hat{\tau}(x) = \frac{1}{|\{i: W_i = 1,X_i \in L(x)\}|} \sum_{\{i: W_i = 1, X_i \in L(x)\}} Y_i - \frac{1}{|\{i: W_i = 0, X_i \in L(x)\}|} \sum_{\{i: W_i = 0, X_i \in L(x)\}} Y_i
\end{aligned}
漸近性の担保方法
「Honesty」という次の成約を課すことで、漸近的に正しい標本分布を得ることができます。
- 各学習点$i$ は次のいづれか一方にのみ使用される:
- 木の分割を決定するため
- 葉内の予測を行うため
上記を満たすために、次の2つのアルゴリズムを利用します。
- Double-Sample Trees: 学習データを2つのサブセットに分割し、一方($J$)を木の分割に、もう一方($I$)を葉内の予測に使用します。
- Propensity Trees: アウトカム変数 $Y_i$ を使用せずに傾向スコア$W$の推定に用いる木を構築し、傾向スコアに基づいて分割を行います。
理論解析
因果フォレストの漸近正規性と一致性(定理11より)
訓練データ $Z_i=(X_i, Y_i, W_i)$ が独立同分布に従うことに加えて、以下を仮定したとします:
- Unconfoundedness: $W_i \perp (Y_i(0), Y_i(1)) | X_i$
- Overlap condition: $\epsilon < P[W=1|X=x] < 1 - \epsilon$ for some $\epsilon > 0$
- Regularity assumptions:
- 共変量 $X$ は $[0,1]^d$ に一様に分布する。
- 条件付き平均 $\mu_w(x) = \mathbb{E}[Y | X=x, W=w]$ と因果効果 $\tau(x) = \mathbb{E}[Y(1) - Y(0) | X=x]$ はリプシッツ連続である。
- $\mathrm{Var}[Y | X=x] > 0$
- $\mathbb{E}[|Y-\mathbb{E}[Y | X=x]|^{2+\delta} | X=x] \leq M$ for some $\delta, M > 0$
- Tree assumptions:
- 木 $\Gamma$ が honesty を満たす。
- $\alpha$-regular: 各ノード分割が以下を満たす。
- 分割のバランス: 各分割が、利用可能な訓練例の少なくとも$\alpha<0.2$の割合を両側に残すこと。
- 葉の最小サイズ: 各治療グループに少なくとも$k\in\mathbb{N}$の訓練例を含む葉ノードを生成すること。
- 深さ成約: $x$を含む葉が、マイノリティクラス($W=0$もしくは$W=1$)に属する訓練例を少なくとも$2k-1$未満の観測値を持つこと。
- Symmetric: 木の構築が学習データの順序に依存しない。
- Sample Size Scaling: サブサンプルサイズが $s\propto n^\beta$ で成長し、$\beta_{\min} < \beta < 1$ を満たす。ここで、 $\beta_{\min} = \frac{\log(1-\alpha)^{-1}}{\log(\alpha^{-1}) + \log(1-\alpha)^{-1}}$ 。
このとき、次を満たすことが証明されています。
- 一致性: 因果フォレスト推定量 $\hat{\tau}(x)$ は一致性を持つ。
- 漸近正規性: $\frac{\hat{\tau} (x)− \tau (x)}{\sqrt{\text{Var} [\hat{\tau}(x)]}}\Rightarrow N (0, 1)$
- 分散の一致性の推定: 無限小ジャックナイフ法を用いて、一致性のある推定量 $\widehat{V}_{IJ}(x)$ を構築できる。
数値実験(5章より)
個人グループの因果効果を正確に推定するためには、処置効果が十分に安定している箇所を特定することと、サンプリングの変動によるバイアスを抑えることが重要です。これらについて、因果フォレストは優れた性能を発揮するかどうかを検証するために数値実験が行われました。
k-NNマッチングは固定の$k$という近傍を使うため非適応的であるが、因果フォレストの場合はデータに基づいて近傍を取り扱うため、適応的(adaptive)であり、それの有効性を確認する。
共通設定
- データ生成方法:
- 主効果 $m(x) = \frac{1}{2} \mathbb{E}[Y(1) + Y(0) | X=x]$
- 個々人グループ因果効果 $\tau(x) = \mathbb{E}[Y(1) - Y(0) | X=x]$
- 共変量 $X \sim \text{Uniform}([0,1]^d)$
- 処置効果 $Y^{(0/1)} \sim \mathcal{N}(\mu_{0/1}(X), 1)$
- 評価指標:
- $\tau(x)$ の推定精度を平均二乗誤差 (MSE) で評価
- カバレッジ率 $P[\tau(x) \in CI(x)]$ で信頼区間の性能を評価
実験1: 傾向スコアのバイアス耐性テスト
- 目的: 治療割り当てと結果の相関によるバイアスへの対応力を検証
- 設定:
- 傾向スコア $e(X) = \frac{1}{4}(1 + \beta_{2,4}(X_1))$ ただし、$\beta_{a,b}$ はベータ分布の確率密度関数
- 主効果 $m(X) = 2X_1 - 2$ ただし、$X_1$ は $X$ の最初の成分
- 個々人グループ因果効果 $\tau(X) = 0$
- $n=500, d=2\sim 30$
- 結果:
- 因果フォレストはk-NNマッチングに比べてMSEが小さく、バイアスに強いことを示した。
- QQプロットにより、因果フォレストの推定量が漸近正規性を満たすことが確認された。
- 分散の推定量が一致性を持つことが示された。
実験2: 個々人グループ因果効果の適応性テスト
- 目的: 個々人グループ因果効果の変動に対する適応性を検証
- 設定:
- 傾向スコア $e(X) = 0.5$
- 主効果 $m(X) = 0$
- 個々人グループ因果効果 $\tau(X) = \varsigma(X_1) \varsigma(X_2)$ ただし、$\varsigma(x) = 1 + \frac{1}{1+\exp(-20(x-1/3))}$
- $n=5000, d=2\sim 30$
- 結果:
- 実験1と同様に、因果フォレストはk-NNマッチングに比べてMSEが小さく、個々人グループ因果効果の変動に対しても適応的であることが示された。
- ただ、推定量について$d$が大きくなるほどMSEが減少するという意外な結果を得た。これについては、$d$が大きくなると木の柔軟性が増し、より適応的になるためと考えられる。
実験3: 急激な変化への対応力テスト
- 目的: 最近傍法の「ピーク平坦化」の弱点を示す
- 設定:
- 実験2と同様の設定に加えて、個々人グループ因果効果に急激な変化を導入
- 個々人グループ因果効果 $\tau(X) = \varsigma(X_1) \varsigma(X_2)$ ただし、$\varsigma(x) = 1 + \frac{1}{1+\exp(-12(x-1/2))}$
- 結果:
- 因果フォレストはk-NNマッチングに比べてMSEが小さく、急激な変化にも対応できることが示された。
- 一方で、急激な変化により信頼区間のカバレッジ率が低下することも確認された。これは$d$が大きくなるについれて、ランダムフォレストが分散ではなくバイアスに影響されやすくなるためと考えられる。
補足
実験2と実験3の因果効果の関数についての図を添付します。
値が大きいもの(赤)が実験2の内容で、小さいもの(青)が実験3です。
個人的な感想
- ランダムフォレストがこの手の課題に対して良い成果を出せるのは、部分的に「適応的な近傍」の考え方に起因していると感じました。特に、共変量空間の異なる領域で異なる近傍サイズを使用できる点が、個々人グループ因果効果の推定において有利に働いていると考えられます。加えて、学習の仕方についても二回に分けることで過学習を防いでいる点も良い工夫だと感じました。
- 因果推論の式についてIPWをもとにしていて、勉強していた内容が出てきたなと感じました。
- 証明については今回は追うことはできませんでした。ただ、チェルノフの不等式などを用いて、漸近性を担保していることが書いて有りそうですので良い練習になるかと感じました。
- 数値実験において、$\mu_{0/1}(X)$の具体設定について書かれていないように感じたため、いまいち設定がわからなかったです。
- ランダムフォレストにおける、バイアスとバリアンスの関係についてイマイチ理解できていないため、そこを深掘りしたいと感じました。
