1. はじめに
この記事で学べること
この記事では、観察データから因果効果を推定する2つの主要な手法について解説します。
- 傾向スコアマッチング(Propensity Score Matching: PSM)の原理と実施方法
- 逆確率重み付け(Inverse Probability Weighting: IPW)の原理と実施方法
- 両手法の違いと使い分けのポイント
想定する読者層
データ分析や統計学の基礎知識がある方を想定しています。特に以下のような方におすすめです。
- マーケティング施策の効果測定を行いたい方
- 医療や社会科学分野で因果推論を学びたい方
- A/Bテストが実施できない状況で効果を測定したい方
2. なぜ傾向スコアマッチングや逆確率重み付けが必要なのか
観察データにおける因果推論の難しさ
実務では、ランダムに施策を割り当てられない状況が多くあります。例えば、新しいマーケティング施策を既存顧客に適用する場合、顧客の属性や過去の購買履歴によって施策の対象が決まることがあるでしょう。
このような観察データでは、単純に施策を受けたグループと受けなかったグループの結果を比較しても、真の因果効果は測定できません。
選択バイアスとは
選択バイアスは、施策を受けるかどうかが個体の特性に依存することで生じます。
具体例を見てみましょう。あるオンライン教育サービスで「個別指導プラン」という有料オプションがあるとします。このプランを選ぶ学習者は、もともと学習意欲が高い傾向があるかもしれません。この場合、個別指導プランを受けた学習者の成績が良かったとしても、それがプランの効果なのか、もともとの学習意欲の高さなのか判別できません。
上図のように、学習意欲という交絡因子が、個別指導プランの選択と学習成果の両方に影響を与えています。
ランダム化比較試験(RCT)との違い
ランダム化比較試験では、施策を受けるかどうかをランダムに割り当てることで、2つのグループの特性を均等にします。これにより、観察される結果の差は施策の効果と解釈できるわけですね。
しかし、倫理的な理由、コストの問題、実施の困難さなどから、RCTが実施できないケースは多々あります。そこで、観察データからRCTに近い状況を作り出すのがPSMやIPWの役割です。
3. 基本概念の理解
因果効果とは
因果効果を測定する際、主に以下の指標を用います。
平均処置効果(Average Treatment Effect: ATE)
母集団全体における施策の平均的な効果を表します。
$$
ATE = E[Y(1) - Y(0)]
$$
ここで、$Y(1)$は施策を受けた場合の結果、$Y(0)$は施策を受けなかった場合の結果です。
処置群における平均処置効果(Average Treatment Effect on the Treated: ATT)
実際に施策を受けた人における効果を表します。
$$
ATT = E[Y(1) - Y(0) | T=1]
$$
$T=1$は施策を受けたことを示します。
交絡因子とは
交絡因子は、施策の選択と結果の両方に影響を与える変数です。先ほどの例では「学習意欲」が交絡因子でした。
交絡因子を適切に調整しないと、因果効果を正しく推定できません。PSMとIPWは、この交絡因子を調整するための手法です。
傾向スコアの定義
傾向スコア(Propensity Score)は、観察された共変量(交絡因子)が与えられたときに、個体が施策を受ける確率です。
$$
e(X) = P(T=1 | X)
$$
$X$は観察された共変量のベクトル、$T$は施策を受けたかどうかを示す変数です。
傾向スコアの重要な特性は、多次元の共変量を1次元のスコアに要約できる点にあります。これにより、複雑な調整作業が大幅に簡略化されます。
条件付き独立性の仮定
PSMとIPWが有効に機能するためには、以下の仮定が必要です。
条件付き独立性(Conditional Independence)
共変量$X$が与えられたとき、潜在的結果$Y(0), Y(1)$と施策の割り当て$T$が独立であること。
$$
{Y(0), Y(1)} \perp T | X
$$
この仮定は、観察された共変量で交絡を十分にコントロールできることを意味します。言い換えれば、施策の選択に影響する要因をすべて測定できているという前提です。
ポジティビティ(Positivity)
すべての共変量の値において、施策を受ける確率が0より大きく1より小さいこと。
$$
0 < P(T=1 | X) < 1
$$
この仮定により、すべての個体に対してマッチング相手や重みを計算できることが保証されます。
4. 傾向スコアマッチング(PSM)
PSMの基本的な考え方
PSMは、傾向スコアが類似した個体同士をマッチングすることで、擬似的にランダム化を実現する手法です。
傾向スコアが同じ個体は、観察された特性が類似しているため、施策を受けるかどうかはほぼランダムと見なせます。このような個体同士を比較することで、因果効果を推定できるわけですね。
PSMの実施手順
傾向スコアの推定
まず、ロジスティック回帰などを用いて傾向スコアを推定します。
$$
\log\frac{e(X)}{1-e(X)} = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p
$$
ここで、$X_1, X_2, \ldots, X_p$は交絡因子となる共変量です。
モデルには、施策の選択に影響すると考えられる変数を含めます。ドメイン知識に基づいて変数を選択することが重要です。
マッチング手法の種類
推定した傾向スコアをもとに、処置群と対照群をマッチングします。主なマッチング手法は以下の通りです。
1対1マッチング(Nearest Neighbor Matching)
各処置個体に対して、傾向スコアが最も近い対照個体を1つ割り当てます。シンプルで解釈しやすい方法です。
1対多マッチング
各処置個体に対して、複数の対照個体を割り当てます。データの利用効率が向上しますが、マッチの質が下がる可能性があります。
カリパーマッチング(Caliper Matching)
傾向スコアの差が一定範囲(カリパー)内にある個体のみをマッチングします。これにより、質の低いマッチを避けられます。
バランスチェック
マッチング後、処置群と対照群の共変量分布が同等になっているか確認します。
標準化差分(Standardized Mean Difference: SMD)がよく用いられ、一般に0.1以下であればバランスが取れていると判断します。
$$
SMD = \frac{\bar{X}{治療} - \bar{X}{対照}}{\sqrt{\frac{s^2_{治療} + s^2_{対照}}{2}}}
$$
バランスが取れていない場合は、傾向スコアモデルを見直す必要があります。
PSMのメリットとデメリット
メリット
- 直感的で理解しやすい
- マッチしたペアを直接比較できる
- 極端な傾向スコアを持つ個体を除外できる
デメリット
- マッチできない個体が生じるため、サンプルサイズが減少する
- マッチング手法の選択に恣意性が入る可能性がある
- 1対1マッチングでは情報の損失が大きい
注意点と限界
PSMには重要な限界があります。それは、観察されていない交絡因子には対処できない点です。
例えば、オンライン教育の例で「学習意欲」を測定していなかった場合、PSMでは調整できません。したがって、ドメイン知識を活かして重要な交絡因子を漏れなく測定することが不可欠です。
また、傾向スコアが極端に0や1に近い場合、マッチングが困難になります。このような場合は、共通サポート(Common Support)の範囲外として分析から除外することが一般的です。
5. 逆確率重み付け(IPW)
IPWの基本的な考え方
IPWは、各個体に傾向スコアに基づいた重みを付けることで、擬似母集団を作成する手法です。
PSMがマッチングによってサンプルを減らすのに対し、IPWはすべてのデータを活用します。重み付けによって、処置群と対照群の共変量分布を調整するわけですね。
IPWの実施手順
傾向スコアの推定
PSMと同様に、ロジスティック回帰などで傾向スコアを推定します。IPWではすべてのデータを使用するため、モデルの適合度がより重要になります。
重みの計算
推定目的に応じて、重みの計算方法が異なります。
ATEを推定する場合
処置群の重み: $w_1 = \frac{1}{e(X)}$
対照群の重み: $w_0 = \frac{1}{1-e(X)}$
この重み付けにより、母集団全体における因果効果を推定できます。
ATTを推定する場合
処置群の重み: $w_1 = 1$
対照群の重み: $w_0 = \frac{e(X)}{1-e(X)}$
この場合、処置群の分布に対照群を合わせることで、処置群における効果を推定します。
ATCを推定する場合
対照群における平均処置効果(Average Treatment Effect on the Control: ATC)を推定する場合は以下の重みを使います。
処置群の重み: $w_1 = \frac{1-e(X)}{e(X)}$
対照群の重み: $w_0 = 1$
重み付き推定
計算した重みを用いて、結果変数の加重平均を計算します。
$$
\widehat{ATE} = \frac{1}{n}\sum_{i=1}^{n}\left(\frac{T_i Y_i}{e(X_i)} - \frac{(1-T_i)Y_i}{1-e(X_i)}\right)
$$
重み付き回帰モデルを用いることもできます。この場合、共変量を追加で調整することで推定の精度を向上させられます。
IPWのメリットとデメリット
メリット
- すべてのデータを活用できる
- サンプルサイズの減少がない
- マッチング手法の選択が不要
- 複数の推定目的に柔軟に対応できる
デメリット
- 傾向スコアが極端な値をとると、重みも極端になる
- 極端な重みは推定値の分散を大きくする
- 結果の解釈がPSMより複雑
注意点と限界
IPWの最大の課題は、極端な重みへの対処です。
傾向スコアが0に近い対照個体や、1に近い処置個体は、非常に大きな重みを持つことになります。これらの個体が推定結果に過度な影響を与える可能性があります。
この問題への対処法として、以下の方法があります。
重みの打ち切り(Trimming)
極端に大きな重みを持つ個体を分析から除外します。
重みの安定化(Stabilized Weights)
分子に周辺確率を入れることで、重みの分散を小さくします。
$$
sw_1 = \frac{P(T=1)}{e(X)}, \quad sw_0 = \frac{P(T=0)}{1-e(X)}
$$
安定化重みは、元の重みと同じ推定値を与えつつ、分散を小さくする効果があります。
6. PSMとIPWの比較
両手法の違い
PSMとIPWは、異なるアプローチで同じ目標を達成しようとします。
サンプルサイズ
PSMはマッチできない個体を除外するため、サンプルサイズが減少します。IPWはすべてのデータを使用しますが、極端な重みを持つ個体を除外する場合もあります。
推定の効率性
IPWは一般的にPSMよりも統計的に効率的です。特に、傾向スコアが適切にモデル化されている場合、より小さい標準誤差で推定できます。
頑健性
PSMは極端な傾向スコアを持つ個体を自然に除外できるため、ある意味で頑健です。IPWは極端な重みに敏感ですが、安定化重みなどで対処できます。
解釈のしやすさ
PSMはマッチしたペアを直接比較するため、結果の解釈が直感的です。IPWは擬似母集団という概念を理解する必要があります。
どちらを選ぶべきか
両手法の選択は、データの特性と研究目的によって決まります。
PSMが適している状況
- サンプルサイズが十分に大きい
- 直感的な説明が必要
- 極端な傾向スコアを持つ個体が多い
IPWが適している状況
- サンプルサイズが限られている
- 統計的効率性を重視する
- 傾向スコアモデルに自信がある
併用することの意義
実務では、両手法を併用して結果の頑健性を確認することが推奨されます。
両手法で一貫した結果が得られれば、推定の信頼性が高まります。逆に、結果が大きく異なる場合は、傾向スコアモデルの再検討や未測定交絡の可能性を疑う必要があります。
また、ダブルロバスト推定(Doubly Robust Estimation)という、IPWと回帰モデルを組み合わせた手法もあります。この手法は、傾向スコアモデルか結果モデルのいずれかが正しければ、一致推定量を得られるという優れた性質を持っています。