はじめに
以前の投稿ではCausal Inference and Uplift Modeling A review of the literature(by Pierre Gutierrez, Jean-Yves G ́erardy)についてまとめてみました.
上述の文献ではMachine Learning Methods for Estimating Heterogeneous Causal Effects(Athey and Imbens)が引用されています.
Athey氏, Imbens氏の両名はしばしば目にするので恐らく著名な研究者なのだと思います.
どのような引用がされているかというと例えば"the Two-Model approach"の章における以下の一節です.
This approach was also introduced in the more recent branch of the causal inference literature that is experimenting with modern machine learning techniques (see the Two Tree (TT) algorithm in Athey and Imbens (2015b)).
さらに、"the Class Transformation Method"という章の中での一節です.
Fortunately, a generalization to unbalanced treatment assignment and to regression setups can be borrowed from (Athey and Imbens (2015b)) who propose to estimate the CATE by applying standard machine learning algorithms to the following transformed outcome variable, $Y_i^{\ast}$:
$$
Y_i^* =Y_i(1) \frac{W_i}{\hat{p}(X_i)} - Y_i(0) \frac{(1 - W_i)}{(1 - \hat{p}(X_i))}
$$
Where$\hat{p}(x)$is a consistent estimator of the propensity score, $p(X_i)$.
さらに、"Modeling Uplift Directly"という章の中での一節です.
The most popular methods in the literature remain the tree-based ones (see Hansotia and Rukstales (2002), Radcliffe and Surry (2011), Rzepakowski and Jaroszewicz (2012) and Athey and Imbens (2015b)). Finally, Soltys et al. (2015), Wager and Athey (2015) or Guelman et al. (2015) provided a generalization to ensemble methods.
ご覧のとおり、Causal Inference and Uplift Modeling A review of the literature(by Pierre Gutierrez, Jean-Yves G ́erardy)で取り上げられている3つの手法(the two-model approach, the class transformation method, and modeling uplift directly)の全てに、彼らの取り組みが登場することが分かります.
本稿は、そんなMachine Learning Methods for Estimating Heterogeneous Causal Effects(Athey and Imbens)についてまとめ、因果推論とuplift modelingに対する理解を深めたいと思います.
余談ですが、uplift modelingの和訳は、Microsoft Fabricによると、「高揚モデル」だそうです.
準備
大前提として、観測可能な変数で条件づけたときに、介入有無がランダムにアサインされている必要があります. もしも観察研究の場合は、は所謂"unconfoundedness", あるいは"selection on observables"が成立している必要があります.
個人メモ
unconfoundednessや、selection on observablesは、介入有無をランダムにアサインした実験においては当然成立するものと理解しました. selection on observablesについては初見でしたので調べてみたところ、Bingの回答は以下のとおりでした.
“Selection on observables” is an assumption in causal inference that implies that conditional on observed pre-treatment covariates, the treatment assignment is independent of potential outcomes. It is also called no omitted variable bias or ignorability. In simpler terms, it means that all the relevant information about the true nonrandom selection-into-treatment process, producing the observed sets of treated and untreated observations, is known to the analyst.
ある特徴量の値の組み合わせで条件づけたときに、(潜在的な)結果変数が介入有無変数が独立であるということになりますね. 例えば、特徴量に性別を表すものが含まれていないが、性別が介入有無に影響を与えており、同時に(潜在的な)結果変数にも影響を与えるという状況はNGなるものと理解しました.
ユニット$i$における介入(の有無)は以下のようにバイナリ変数$W_i$で表現します.
$$
W_i \in \{0, 1\}
$$
ユニット$i$が介入(active treatment)を受けた時は$W_i = 1$です.
$X_i$はL次元の特徴量ベクトルで、covariatesあるいは、pretreatment variablesに相当します. これらの特徴量は、treatmentの影響を受けてはなりません.
また、sutva(stable unit treatment value assumption)を仮定します.
個人メモ
sutvaとはBingによると以下のとおりでした.
SUTVAとは、簡単に言えば、介入による影響は、介入を受ける処置群の個々の主体のみに閉じていなければならないことを意味する. つまり、処置による影響が他の処置群に及ぶことがないということです。
$$
p = pr(W_i = 1) = {E} (W_i)
$$
は、介入の周辺確率を表し、
$$
e(x) = pr(W_i = 1|X_i = x)
$$
は条件付き介入確率、所謂propensity scoreです.
介入割当の確率が定数となるようなランダム化実験においては、この条件付き介入確率は全ての$X_i = x$において定数$p$となるということができます.
個人メモ
- ランダム化実験における、介入割当の確率は必ずしも0.5でなくても良いものと理解
- $e(x)$は定数$p$ではないが、ある特徴量を引数とした関数としてpropensityスコアを事前に決めておくケースがあるものと理解
さらに、それぞれのユニットについて、$W_i = 0, W_i=1$に対応する潜在結果変数$Y_i(0), Y_i(1)$のペアが存在することを所与とします. このとき、ユニットレベルでの因果効果$\tau_i$は
$$
\tau_i = Y_i(1) - Y_i(0)
$$
となります.
また、観測された結果$Y_i^{obs}$は次のように表現されます.
\begin{equation} \label{eq: cases f}
Y_i^{obs}=
\begin{cases}
Y_i(0) & \text{if} \quad W_i = 0\\
Y_i(1) & \text{if} \quad W_i = 1
\end{cases}
\end{equation}
ここで、条件付平均処置効果(conditional average treatment effect:CATE)は以下の$\tau(x)$で表現します.
$$
\tau(x) = {E}[Y_i(1) − Y_i(0)|X_i = x]
$$
さらに、母集団の平均処置効果を$\tau^p$とし、以下で表現します.
$$
\tau^p = {E}[Y_i(1) − Y_i(0)] = {E}[\tau(X_i)]$$
通常の教師あり学習アルゴリズムを利用する場合の問題
$\hat{\tau}(x)$を、$\tau(x)$の推定量としたとき、以下の$Q^{infeas}$(goodness-of-fit)は計算することができません.
$$
Q^{infeas} = \frac{1}{N^{te}} \sum_{i=1}^{N^{te}} (Y_i(1) - Y_i(0) - \hat{\tau}(x))^2
$$
その理由は言うまでもなく$\tau(x) = Y_i(1) - Y_i(0)$を観測できないからです.
基本となる通常の教師あり学習アルゴリズム
まず初めに、通常の機械学習アルゴリズムについて考えます.
ここでは$\mu(x) = {E}[{Y_i^{obs}|X_i=x}]$を予測します.
そのため、その推定量である$\hat{\mu}(x)$は、ここでは、それぞれのleafの構成要素の結果変数の平均値をとったものとします.
言い換えると、決定木などのモデル利用を前提として議論が進んでいくということだと理解しました.
$(X^{tr}, Y^{tr, obs})$は学習データの特徴量と、対応する観測結果(の行列)です.
ここで、in-sample goodness-of-fitメジャー$Q^{is}$を以下のとおりとします.
$$
Q^{is}(\hat{\mu}; X^{tr}, Y^{tr, obs}) = - \frac{1}{N^{tr}} \sum_{i=1}^{N^{tr}} \bigl(Y_i^{tr, obs} - \hat{\mu}(X_i^{tr}) \bigl) ^2
$$
さらに、$K$を木の中の葉の数とし、$Q^{crit}$を以下のとおりとします.
$$
Q^{crit}(\hat{\mu}; \alpha, X^{tr}, Y^{tr, obs}) = - \frac{1}{N^{tr}} \sum_{i=1}^{N^{tr}} \bigl(Y_i^{tr, obs} - \hat{\mu}(X_i^{tr}) \bigl) ^2 - \alpha \cdot K
$$
同様に、テストデータを使用したout-of-sample goodness-of-fitメジャー$Q^{os}$を以下のとおりとします.
$$
Q^{os}(\hat{\mu}; X^{te}, Y^{te, obs}) = - \frac{1}{N^{te}} \sum_{i=1}^{N^{te}} \bigl(Y_i^{te, obs} - \hat{\mu}(X_i^{te}) \bigl) ^2
$$
これらのメジャーを使用して、決定木を分岐させていき、$\mu(x)$の推定量$\hat{\mu}(x) = {E}[{Y_i^{obs}|X_i=x}]$を求めるための木を特定することが可能です.
さて、これらの数式を定義した上での、決定木アルゴリズムの詳細については文献内で説明があるものの、残念ながら私は一般的な決定木アルゴリズムの仕組みが理解できておらず、説明内容が一般的なアルゴリズムなのか、変形されたアルゴリズムなのか理解できませんでした.
ですので、決定木アルゴリズムや、パラメータ$\alpha$選定のアルゴリズムについては割愛したいと思います.
CATEを生成するための結果変数の変形,及び付随するgoodness-of-fitメジャーの変形
結果変数の変形
再度unconfoundednessの仮定が登場します.
$$
W_i \bot \bigl( Y_i(1), Y_i(0) \bigl)|X_i \tag{3.1}
$$
ここで、CATE-generating transformation of the outcome$Y^{*}$ を次のように定義します.
$$
Y_i^{*} = Y_i^{obs} \cdot \frac{W_i - e(X_i)}{e(X_i) \cdot (1 - e(X_i))}
$$
当然ですが、$e(x) = p$ for all x であれば、上式の$e(X_i)$はシンプルに$p$とできます.
(参考文献内ではこのことを"complete ramdomization"と表現しているようです.
個人メモ
冒頭で以下のような数式が出てきましたが、上式と似ており、細かい表記はさておき、変形すると数式の構造としては一致することが分かります.
$$
Y_i^* =Y_i(1) \frac{W_i}{\hat{p}(X_i)} - Y_i(0) \frac{(1 - W_i)}{(1 - \hat{p}(X_i))}
$$
ここで、(3.1)つまり、unconfoudedness(Causal Inference and Uplift Modeling A review of the literature(by Pierre Gutierrez, Jean-Yves G ́erardy)ではCIAと表現)が成り立つとき以下の数式も成り立ちます.
$$
{E}[Y_i^{*}|X_i =x]=\tau(x)
$$
これは、参考文献内で10行程度にわたる式変形による証明が記載されていますが、私には理解が難しかったのでここでは割愛します.
個人メモ
$e(x)$を定数pでなくても、特徴量の関数としてあらかじめ定義できるのであれば、ランダム化試験に該当するものと理解していますが、この場合CATE(conditional average treatment effect)の推定は$Y_i^{*}$の期待値をとる作業になるということになりますね. 良く考えれば当たり前のようにも思えますが、今さら気づきました.
goodness-of-fitメジャーの変形
out-of-sample goodness-of-fit メジャー
以下は、通常のアルゴリズムで使用される、テストデータでのgoodness-of-fitメジャー(再掲)です.
$$
Q^{os}(\hat{\mu}; X^{te}, Y^{te, obs}) = - \frac{1}{N^{te}} \sum_{i=1}^{N^{te}} \bigl(Y_i^{te, obs} - \hat{\mu}(X_i^{te}) \bigl) ^2
$$
これを、以下のように変形します.
(添え字のTOはtransformed outcomeなるものと推測
$$
Q^{os, TO}(\hat{\tau};Y^{te, obs}, W^{te}, X^{te}) = - \frac{1}{N^{te}} \sum_{i=1}^{N^{te}} \bigl(Y_i^{te,*} - \hat{\tau}(X_i^{te}) \bigl) ^2
$$
結果変数を変形した場合、モデルの評価に使用するメジャー(out-of-sample goodness-of-fit measure)は上述の$Q^{os, TO}$となります.
なお、$\hat{\tau}(x)$を固定したとき、上式の期待値は${E} [Q^{os, TO}]$は以下のように展開できるそうです.
$$
{E}[Q^{os, TO}] = {E}[\bigl( \tau (X_i^{te}) - \hat{\tau} (X_i^{te}) \bigl) ^2] + {E}[\bigl( Y_i^{te, *}- \tau (X_i^{te})\bigl) ^2]
$$
上式の右辺2項目は$\hat{\tau}(x)$とは無関係です. ですので上式が$\tau(\cdot)$によって最小化されるとき、$\hat{\tau}(x) = \tau(x)$ for all x となるように最適化されるものと考えられます. テストサンプルのサイズが十分に大きく、テストサンプルにおける$Q^{os, TO}$がその期待値に近似できるならば、この基準は推定量の最良なcriterionであるということでした.
in-sample goodness-of-fit メジャー
以下は、通常のアルゴリズムで使用される、トレーニングデータでのgoodness-of-fitメジャー(再掲)です.
$$
Q^{is}(\hat{\mu}; X^{tr}, Y^{tr, obs}) = - \frac{1}{N^{tr}} \sum_{i=1}^{N^{tr}} \bigl(Y_i^{tr, obs} - \hat{\mu}(X_i^{tr}) \bigl) ^2
$$
これを、以下のように変形します.
$$
Q^{is, TO} = - \frac{1}{N^{tr}} \sum_{i=1}^{N^{tr}} \bigl(Y_i^{tr, *} - \hat{\tau}(X_i^{tr}) \bigl) ^2
$$
an alternative in-sample goodness-of-fit メジャー
in-sample goodness-of-fitメジャーについては、もう1パターンあります.
はじめに、通常の教師あり学習アルゴリズムにおけるin-sample goodness-of-fitメジャーを以下のように展開します.
\begin{align}
-\frac{1}{N^{tr}} \sum_{i=1}^{N^{tr}} \bigl(Y_i^{tr, obs} - \hat{\mu}(X_i^{tr}) \bigl) ^2 &= -\frac{1}{N^{tr}} \sum_{i=1}^{N^{tr}} \bigl((Y_i^{tr, obs})^2 -2 \cdot Y_i^{tr, obs} \cdot \hat{\mu}(X_i^{tr}) +\hat{\mu}^2(X_i^{tr}) \bigl) \\
&= -\frac{1}{N^{tr}} \sum_{i=1}^{N^{tr}} \bigl((Y_i^{tr, obs})^2 -2(Y_i^{tr, obs} - \hat{\mu}(X_i^{tr})) \cdot \hat{\mu}(X_i^{tr}) - \hat{\mu}^2(X_i^{tr}) \bigl)
\end{align}
モデルが切片をもつとき(大抵は切片をもちます)、上式の二項目の平均は0と等しいので、そうしたケースではこのメジャーは以下のように書き換えられます.
\begin{align}
-\frac{1}{N^{tr}} \sum_{i=1}^{N^{tr}} \bigl(Y_i^{tr, obs} - \hat{\mu}(X_i^{tr}) \bigl) ^2 &= -\frac{1}{N^{tr}} \sum_{i=1}^{N^{tr}} \bigl((Y_i^{tr, obs})^2 - \hat{\mu}^2(X_i^{tr}) \bigl)
\end{align}
個人メモ
統計の教科書で線形回帰の章でなんとなく見覚えがありますが、上式の二項目がゼロになる件についてBardに聞いてみたところ以下のとおりでした.
- 回帰モデルにおいて、残差と推定値の積は平均してゼロになりますか?
はい、回帰モデルにおいて、残差と推定値の積は平均してゼロになります。これは、回帰モデルの推定値が、データから学習した回帰直線によって説明できない残差の平均値をゼロにするように調整されているためです。
- 切片がない場合はどうでしょう?
切片がない回帰モデルでは、残差と推定値の積は平均してゼロにはなりません。これは、切片がない場合、回帰直線の交点が原点ではなく、データの一部が原点の下に位置するためです。そのため、残差の平均値はゼロではなく、負の値となります。
- これは決定木などの線形回帰以外のモデルでもいえますか?
はい、決定木などの線形回帰以外のモデルでも、残差と推定値の積は平均してゼロになります。これは、線形回帰以外のモデルでも、データから学習した回帰直線によって説明できない残差の平均値をゼロにするように調整されているためです。ただし、線形回帰以外のモデルでは、残差と推定値の積が平均してゼロになるという性質は、線形回帰ほど厳密ではありません。これは、線形回帰以外のモデルでは、データから学習した回帰直線が、線形回帰よりも複雑になるためです。そのため、残差の平均値は、ゼロに近い値になる可能性があります。
個人メモ
参考文献内にはこの式の解釈が掲載されていたのですが、理解できなかったので原文を掲載します. 左辺がそれぞれの葉について分散を合計したような式になっており、右辺のsummation内の第2項の絶対値を大きくすることで、上式が0(最大値)に近づくことは理解したのですが、どういうときにそれぞれの葉における結果変数の実現値の平均値の2乗が最大化されるのか良く分かりませんでした. 以下を見ると、各leaf内の平均値がばらつくほど良いということでしょうか. Gini係数との類似性が指摘されており、恐らく分類アルゴリズムに関する基礎的な内容なのだと理解しました.
To interpret this, because the first component does not depend on the estimator being used, a model fits better according to this criteria if it yields higher variance predictions. This criteria makes sense because the estimation forces the predictions to be unbiased and the estimator is efficient given the model. Thus, additional variance corresponds to more refined discrimination among units in terms of their outcomes. In this regard, it is analogous to using a Gini coefficient to evaluate the performance of a classification algorithm in sample. For classification, more inequality among predicted probabilities corresponds to more accurate predictions for an unbiased classifier.
以下は上式の再掲です.
\begin{align}
-\frac{1}{N^{tr}} \sum_{i=1}^{N^{tr}} \bigl(Y_i^{tr, obs} - \hat{\mu}(X_i^{tr}) \bigl) ^2 &= -\frac{1}{N^{tr}} \sum_{i=1}^{N^{tr}} \bigl((Y_i^{tr, obs})^2 - \hat{\mu}^2(X_i^{tr}) \bigl)
\end{align}
上式を変形し、$\hat{\mu}(x)$ではなく、$\hat{\tau}(x)$とした$Q^{is,sq}(\hat{\tau})$を定義します.
$$
Q^{is,sq}(\hat{\tau}) = \frac{1}{N^{tr}} \sum_{i=1}^{N^{tr}} \hat{\tau}(X_i^{tr})^2
$$
個人メモ
$\mu(x) = {E}[{Y_i^{obs}|X_i=x}]$
$\tau(x) = {E}[Y_i(1) − Y_i(0)|X_i = x]$
推定量である$\hat{\mu}(x)$は、ここでは、それぞれのleafの構成要素の結果変数の平均値をとったものでしたが、$\hat{\tau}(x)$は果たしてどのようにして計算するのでしょうか.
条件付きの期待値を求めるような通常のセッティングでは、上式は先ほどの$Q^{is, TO}$(下式)と、定数を除き同一です.
$$
Q^{is, TO} = - \frac{1}{N^{tr}} \sum_{i=1}^{N^{tr}} \bigl(Y_i^{tr, *} - \hat{\tau}(X_i^{tr}) \bigl) ^2
$$
逆に言うと、ここでは条件付き期待値ではなく、CATE-generating transformation of the outcome である以下の$Y_i^{*}$がターゲットです.
$$
Y_i^{*} = Y_i^{obs} \cdot \frac{W_i - e(X_i)}{e(X_i) \cdot (1 - e(X_i))}
$$
ここで、$Q^{is, TO}(\hat{\tau})$と$Q^{is,sq}(\hat{\tau})$の差をとると
$$
Q^{is, TO}(\hat{\tau}) - Q^{is,sq}(\hat{\tau}) = - \frac{2}{N^{tr}} \sum_{i=1}^{N^{tr}} \bigl( Y_i^{tr, *} - \hat{\tau}(X_i^{tr}) \bigl) \cdot \hat{\tau}(X_i^{tr}) + \frac{1}{N^{tr}} \sum_{i=1}^{N^{tr}} (Y_i^{tr, *})^2
$$
上式は、関数$\hat{\tau}(\cdot)$の中で必ず定数になるわけではありません.
そもそもこれら2種類の手法から得られる結果は異なるので、これら2つを比較するためにはさらなる分析が必要です.
個人メモ
この説明は個人的には唐突感があり、全体の流れとの関連付けがうまくできませんでした. 当然といえば当然ですが、先ほど式がまだ$\hat{\mu}$に関するものだったときに、ゼロになるといって切り捨てた、残差と推定値の積の平均のような項が復活していることが分かります. 文脈上、変形された目的変数$Y_i^{\ast}$とその推定量$\hat{\tau}$の場合はゼロにならないのでしょう.
CATEの推定方法
いよいよCATE(conditional average treatment effect)の推定方法の説明です.
5つの手法が紹介され、共通点としては全てtree-based modelsに分類されます.
A Single Tree Based on the Observed Outocome
略してSTアルゴリズムとのことです.
STアルゴリズムにおける$\hat{\tau}_{ST}(x)$は次の通りです.
\begin{align}
\hat{\tau_{ST}}(x) &= \hat{\mu}(1, x) - \hat{\mu}(0, x) \\
\hat{\mu}(w,x) &= \hat{\mathbb{E}}[Y_i^{obs}|W_i = w,X_i = x]
\end{align}
Separate Trees for the Observed Outcome by Treatment Groups
略してTTアルゴリズムとのことです.
(two tree algorithm
下式のとおり、STアルゴリズムと考え方は同じですが、$\hat{\mu}(1, x)$の推定には$W_i=1$のサブサンプルを使用し、$\hat{\mu}(0, x)$の推定には$W_i=0$のサブサンプルを使用します.
\begin{align}
\hat{\tau_{TT}}(x) &= \hat{\mu}(1, x) - \hat{\mu}(0, x)
\end{align}
The Transformed Outcome Tree Method
略してTOTアルゴリズムとのことです.
$Y_i^{*}$に対して、通常の機械学習アルゴリズムを用います.
具体的には回帰木を作り、MSEをgoodness-of-fitメジャーとしてトレーニングデータ、テストデータの両方に適用します.
unconfoundednessが成立していれば以下のようになります.
$$
CATE: \hat{\tau}_{TOT}(x) = {E}[Y_i^{*}|X_i =x]=\tau(x)
$$
ここで、$e(x)$が$x$に関わらず一定ということでなければ、この手法を実施するためにまず$e(x)$を推定する必要があります. 何故なら$Y_i^{*}$の定義にpropensity scoreが含まれているからです. xの次元が大きいような応用ではランダムフォレストのような教師あり学習の手法が実用的だろう、とのことでした.
個人メモ
別の章で以下のような記載があったのが気になりました. TTモデルの章ではpropensity scoreの推定はノンパラメトリックなモデルでも近似的にefficientだとされています. efficientとはもしかすると、統計のテキストであったBLUE(best linear unbiased estimator)に似た概念だと理解しました.
On the other hand, Hirano, Imbens and Ridder (2003) established that taking the difference of the sample averages within each of the two groups, weighted by the inverse of the nonparametrically estimated propensity score is also asymptotically efficient.
やや飛躍して解釈すると、propensity scoreの推定手法は実用性重視で構わない、という風にも読めますね.
さて、4つ目, 5つ目のアルゴリズムに進む前に、ここで3つ目のTOTアルゴリズムについて深掘りしておきます.
以下は$Y_i^{*}$の定義(再掲)です.
$$
Y_i^{*} = Y_i^{obs} \cdot \frac{W_i - e(X_i)}{e(X_i) \cdot (1 - e(X_i))}
$$
当然ですが、$e(x) = p$ for all x であれば、上式の$e(X_i)$はシンプルに$p$とでき、以下のようになります.
$$
Y_i^{*} = Y_i^{obs} \cdot \frac{W_i - p}{p \cdot (1 - p)}
$$
これは、以下のように書き直すことが可能です.
$$
Y_i^* =Y_i(1) \frac{W_i}{p} - Y_i(0) \frac{(1 - W_i)}{(1 - p)}
$$
ある葉での介入率$p'$が$p' \neq p$の場合
$$
\frac{1}{N}\sum_{i} Y_i^* =p' \cdot \sum_{i \in W_i=1}Y_i^{obs} \frac{1}{p} - (1-p') \cdot \sum_{i \in W_i=0}Y_i^{obs} \frac{1}{(1 - p)}
$$
となり、推定された介入効果にばらつきをもたらします.
4つ目と5つ目のアルゴリズムは上述の事象の解消を目指すものです.
言い換えると、TOTアルゴリズムを使用する理由は既製品の教師あり学習アルゴリズムをそのまま流用できるから、ということになります.
The Causal Tree-Transformed Outcome Algorithm
略してCT-TOアルゴリズムとのことです.
葉$l$に対応する特徴量空間(covariate space)を$\mathbb{X}_l$とするとき、$X_i \in \mathbb{X}_l$における介入効果の推定量を以下のように表わします.
\hat{\tau}(X_i) = \frac{\sum_{j:X_j \in \mathbb{X}_l} Y_i^{obs} \cdot W_i / \hat{e}(X_i)}{ \sum_{j:X_j \in \mathbb{X}_l} W_i / \hat{e}(X_i) } - \frac{\sum_{j:X_j \in \mathbb{X}_l} Y_i^{obs} \cdot (1 - W_i) / (1 - \hat{e}(X_i))}{ \sum_{j:X_j \in \mathbb{X}_l} (1 - W_i) / (1 - \hat{e}(X_i)) }
個人メモ
これはよく分かりませんでした.
TOTアルゴリズムでは、ユニットレベルの介入効果を算出する際に、当該leafにおける$Y_i^{*}$の平均をとっていました. そのため、propensity scoreを$x$によらない定数$p$とした場合においても、当該leaf内における、介入率の実現値のばらつきの影響を受けるとのことでした. 一方で、CT-TOアルゴリズムでは、当該leaf内の$W_i={1, 0}$の出現率の結果ではなく、propensity scoreの推定値で重みづけをしています. 著者によると、この手法の方が優れているとのことですが、私には理由が良く分かりませんでした. 後続の作業で$Y_i^{\ast}$との差分の2乗をとりますが、この$Y_i^{\ast}$にも$\hat{e}(X_i)$が現れるので、上式の方が自然といえば自然な気がします.
The Causal Tree Method
略してCTアルゴリズムだそうです.
CTアルゴリズムはCT-TOアルゴリズムとほぼ同じですが、in-sample goodness-of-fitメジャーが$Q^{is, sq}$になっています.
まとめ
教師あり機械学習アルゴリズムのtree-basedモデルによる異質な因果効果の推定においては
- 結果変数の実現値をそのまま学習に使用する方法
- 変形して使用する方法
の2通りある.
変形を行う場合は、介入効果の計算に工夫が必要.