More than 1 year has passed since last update.

処置選択と統計的決定理論

Last updated at 2024-03-21Posted at 2024-03-21

はじめに

東北大学/株式会社Nospareの石原です．今回は，計量経済学の分野で研究されている処置選択問題 (treatment choice problem) について紹介したいと思います．この問題は，経済学の分野では Manski (2004) によって提案されたことで有名ですが，医学や機械学習などの様々な分野で類似した問題が考えられており，多くの分野の人にとって関心のある研究分野だと思います．今回の記事では，この処置選択問題を統計的決定理論の枠組みで分析したいくつかの研究結果について紹介したいと思います．

問題の設定

データ $\mathbf{Y} \in \mathcal{Y} \subset \mathbb{R}^n$ に基づいて，新しい政策を導入するかどうかを決定するという問題を考えます（政策を導入する場合を $d=1$ と表し，導入しない場合を $d = 0$で表します）．また，$d \in (0,1)$ は全体の $(100 \times d)$ % に政策を導入するということを表すとします．例えば，職業訓練プログラムを導入するかどうかを考える場合には，$d \in (0,1)$ のときはランダムに選ばれた $(100 \times d)$ % の人だけが職業訓練プログラムを受けることになります．この設定では，$\mathbf{Y} \in \mathbb{R}^n$ に基づいて $d \in [0,1]$ を決定することが目標となるので，適当な基準の下での最適な決定ルール

\delta: \mathcal{Y} \mapsto [0,1]

を求めることが処置選択問題の目標となります．

$\theta \in \Theta$ をパラメータとし，decision $d \in [0,1]$ に対する welfare を

W(d,\theta) = d \cdot w_1(\theta) + (1-d) \cdot w_0(\theta)

と定義します．ここで，$w_1(\theta)$ はパラメータが $\theta$ であるときに政策を導入することで得られる welfare であり，$w_0(\theta)$は政策を導入しなかったときに得られる welfare です．もしパラメータ $\theta \in \Theta$ が既知であれば，welfare を最大にする decision は

d^{\ast}(\theta) = 1 \{ w_1(\theta) - w_0(\theta) \geq 0 \}

となります．しかし，当然パラメータ $\theta$ の値は未知なので，パラメータ $\theta$ をもつ分布 $F_{\theta}$ から生成されたデータ $\mathbf{Y} \sim F_{\theta}$ に基づいて政策を導入するかどうかを決める必要があります．

一般的な問題を考えるのは難しいので，以下ではより簡単な問題を考えます．$\theta = (\theta_0, \theta_1)$ とし，$w_1(\theta) = \theta_1, \ w_0(\theta) = \theta_0$ であるとします．例えば，ある政策を導入したときの母集団の期待賃金を $\theta_1$，導入しなかった場合の期待賃金を $\theta_0$ とすると，$W(d,\theta) = d \theta_1 + (1-d) \theta_0$ は $d \in [0,1]$ という decision をした場合に実現する母集団の平均賃金と考えることができます．このとき，

d^{\ast} (\theta) = 1\{\theta_1 - \theta_0 \geq 0\}

となるので，政策の効果 $\theta_1 - \theta_0$ が正なら全員に政策を導入し ($d=1$)，負なら誰にも政策を導入しない ($d=0$) という決定が最適となります．以降では，簡単のため，政策の効果 $\theta_1-\theta_0$ の推定量

Y \sim N(\theta_1-\theta_0,\sigma^2)

という１つのデータを用いて意思決定をするという状況を考えます．ここで，$\sigma^2$ は既知の値とします．

最適な決定ルール

上の設定では，より大きな expected welfare

E_{\theta}[W(\delta(Y),\theta)]

を達成することができる決定ルール $\delta$ が望ましいと考えられます．しかし，$E_{\theta}[W(\delta(Y),\theta)]$ は未知のパラメータ $\theta$ に依存するので，全ての $\theta$ で expected welfare を最大にする決定ルールは存在しません．このような状況では，パラメータ $\theta$ の事前分布 $\pi$ を用いて，expected welfare の積分を最大化する $\delta$ を求めるという方法が考えられます．このような基準はベイズ基準と呼ばれています．ベイズ基準では，

\delta_{\pi}^{\ast} \in \text{arg} \max_{\delta} \int E_{\theta}[W(\delta(Y),\theta)] d\pi(\theta)

という決定ルールが最適となります．通常のベイズ推定の問題と同様に，$\theta$ の事後分布を求めることで，$\delta_{\pi}^{\ast}$ を求めることができます．

ベイズ基準の他にも，expected welfare の worst case を最大化する maximin welfare 基準という基準も考えられます．この基準では，

\delta_{\text{maxmin}}^{\ast} \in \text{arg} \max_{\delta} \min_{\theta \in \Theta} E_{\theta}[W(\delta(Y),\theta)]

という決定ルールが最適となります．しかし，maximin welfare 基準は非常に悲観的な決定ルールを選択することが知られています．例えば，すべての $\theta_0$ に対して $\theta_1 - \theta_0 < 0$ を満たすようなパラメータ空間内の $\theta_1$ が存在するとすると，

E_{\theta}[W(\delta(Y),\theta)] = (\theta_1 - \theta_0) E_{\theta}[\delta(Y)] + \theta_0

が成り立つことから，$\delta(y) = 0, \ \forall y$ という決定ルールが welfare の worst case を最大化していることが分かります．このように，maximin welfare 基準の下では，非常に悲観的な決定ルールが選択されることになります．

この問題を回避するために，多くの処置選択の研究では minimax regret 基準という基準を用いています．この基準では，次の expected regret という値に注目します：

\begin{align}
R(\delta, \theta) &= E_{\theta} \left[ \max_{d \in [0,1]} W(d,\theta) - W(\delta(Y),\theta) \right] \\
&= W(d^{\ast}(\theta),\theta) - E_{\theta} \left[ W(\delta(Y),\theta) \right]
\end{align}

ここで，expected regret はパラメータ $\theta$ が既知な場合に達成可能な welfare の最大値と決定ルール $\delta$ によって達成される welfare の差の期待値となっています．minimax regret 基準では，

\delta^{\ast}_{\text{minimax}} \in \text{arg} \min_{\delta} \max_{\theta \in \Theta} R(\delta, \theta)

という決定ルールが最適となります．maximin welfare 基準とは異なり，minimax regret 基準は自然な決定ルールを選択することが知られています．

簡単のため，$\delta_c(Y) = 1 \{ Y \geq c \}$ という形式の決定ルールを考えます．このとき，$\Theta = \mathbb{R}^2$ とすると，

\begin{align}
\max_{\theta \in \Theta} R(\delta_c,\theta) &= \max_{(\theta_0,\theta_1) \in \mathbb{R}^2} \left\{ (\theta_1 - \theta_0) \cdot \left( 1\{\theta_1 - \theta_0 \geq 0\} - E_{\theta}[1\{Y \geq c\}] \right) \right\} \\
&= \max_{\tau \in \mathbb{R}} \left\{ \tau \cdot \left( 1\{\tau \geq 0\} - \Phi\left( \frac{\tau-c}{\sigma} \right) \right)  \right\}
\end{align}

が成り立ちます．ここで，$\Phi$ は標準正規分布の分布関数を表し，$\tau = \theta_1 - \theta_0$ としています．このとき，詳細は省きますが，$\max_{\theta \in \Theta} R(\delta_c,\theta)$ を最小にする $c$ の値は $0$ となり，$\delta_0(Y) = 1 \{ Y \geq 0 \}$ が regret の worst case を最小にしていることが分かります．ここでは，$\delta_c(Y) = 1 \{ Y \geq c \}$ という形式の決定ルールの中で $\delta_0$ が最適であることを示しましたが，実際にはすべての決定ルールの中で $\delta_0$ が唯一の最適な決定ルールであることが知られています．この決定ルールは，政策の効果の推定量 $Y$ が正であれば政策を導入し，負であれば導入しないというルールに対応します．このように，minimax regret 基準によって非常に自然な決定ルールが選ばれるということが分かりました．

バイアスのある推定量に基づいた最適な決定ルール

これまでは政策の効果の良い推定量があるという簡単な設定を考えていましたが，以降では，推定量にバイアスがあるかもしれないという設定を考えます．具体的には，パラメータを $\theta = (\tau,\gamma) \in \Theta = \mathbb{R} \times [-C,C]$ とし，次のような状況を考えます：

\begin{align}
w_0(\theta) = 0, \ \ w_1(\theta) = \tau, \ \ Y \sim N(\tau+\gamma,\sigma^2).
\end{align}

この設定では，政策を導入しなかった場合に達成される welfare を $0$ とし，政策を導入した場合の welfare を $\tau$ としています．また，政策の効果 $\tau$ の不偏推定量ではなく，$\gamma$ というバイアスを持つ推定量 $Y$ に基づいて，政策を導入するか決定するという状況を考えています．例えば，ランダム化比較試験を行わずに政策の効果を推定した場合は，セレクション効果などにより推定量にバイアスが生じることが考えられます．また，たとえランダム化比較試験を行った場合でも，実験の母集団と実際に政策を導入する母集団が異なれば，推定量はバイアスを持つ可能性があります．以降では，この設定の下で，minimax regret 基準で最適となる決定ルールを紹介します．

Stoye (2012) などの論文で，上の設定の下での最適な決定ルールが導出されています．その結果によると，以下の決定ルールが minimax regret 基準の下で最適となることが示されています¹：

\delta(Y) = \begin{cases}
1\{Y \geq 0 \}, & \text{if} \ \sigma \geq 2 \phi(0) C \\
\Phi \left( \frac{Y}{\sqrt{4\phi(0)^2C^2 - \sigma^2}} \right), & \text{if} \ \sigma < 2 \phi(0) C 
\end{cases}

ここで，$\phi$ は標準正規分布の密度関数を表しています．$C$ はバイアス $\gamma$ の存在範囲を示しているので，バイアスの大きさ $C$ が推定量の標準偏差 $\sigma$ と比較して十分に小さければ，推定量 $Y$ の符号に基づいて母集団全体に政策を導入するかしないかを決定するという決定ルールが最適になることが分かります．一方で，$C$ が $\sigma$ と比較して十分に大きい場合は，母集団の一部に政策を導入するという決定ルールが最適となります．

上の結果は，データからは分かりえない部分が大きくなる（$C$ の値が大きくなる）と，完全に政策を導入するかどうかを決定するルール ($\delta(Y) \in \{0,1\}$) より一部に政策を導入するルール ($\delta(Y) \in (0,1)$) が選ばれることを示しています．この理由を直観的に理解するために，$C$ が非常に大きく $\sigma$ が $0$ に近い状況を考えましょう．このような状況では，$\tau$ が大きな正の値にも関わらず $\gamma$ が非常に小さな値を取って $\tau + \gamma$ が負の値になることがあります．このような場合，$\sigma$ が $0$ に近いと $Y$ は高い確率で負の値を取ることになります．したがって，$\delta(Y) = 1\{Y \geq 0\}$ という決定ルールを考えると，大きな政策効果 ($\tau > 0$) があるにも関わらず，政策を導入しないことを選択することになり，この決定ルールの regret は非常に大きくなります．このように，$C$ の値が大きい場合は，$\delta(Y) \in \{0,1\}$ となる決定ルールの regret が大きくなり，$\delta(Y) \in (0,1)$ となる決定ルールが選ばれることになります．

この設定では，たとえ $Y$ の分布が分かっていたとしても，$\tau$ の値を正確に知ることはできず，$\tau$ が $E[Y]-C$ と $E[Y]+C$ の間にあることしか分かりません．このような場合，$\tau$ は部分識別されるといいます．部分識別については，過去の記事を参考にしてください．Montiel Olea, Qiu, and Stoye (2023) や Yata (2023) などの最近の論文で，部分識別の下での処置選択の問題が研究されています．それらの研究によると，より複雑な設定でも，政策の効果が部分識別される状況では最適な決定ルールが $0$ と $1$ の間の値を取りうることが示されています．また，Montiel Olea et al. (2023) によると，そのような状況では，すべての決定ルールが許容的 (admissible) であり，minimax regret 基準で最適な決定ルールが無数に存在することが示されています．

最後に

今回は，統計的決定理論の枠組みで分析した処置選択問題について紹介しました．今回は非常に単純な例を紹介しましたが，最近ではより具体的な設定で処置選択問題に取り組んでいる研究もあります．例えば，Ishihara and Kitagawa (2021) では，minimax regret 基準に基づいて政策についての複数の研究結果をどう集計するかという問題を考えています．また，Yata (2023) では，回帰非連続デザインの設定での処置選択の問題に取り組んでいます．処置選択と統計的決定理論については，Japanese Economic Review というジャーナルでも特集号が組まれているので，興味がある人は是非論文を読んでみてください．

株式会社Nospareでは統計学の様々な分野を専門とする研究者が所属しております．統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospareまでお問い合わせください．

参考文献

Ishihara, T., & Kitagawa, T. (2021). Evidence aggregation for treatment choice. arXiv preprint arXiv:2108.06473.
Manski, C. F. (2004). Statistical treatment rules for heterogeneous populations. Econometrica, 72(4), 1221-1246.
Montiel Olea, J. L., Qiu, C., & Stoye, J. (2023). Decision Theory for Treatment Choice Problems with Partial Identification. arXiv preprint arXiv:2312.17623.
Stoye, J. (2012). Minimax regret treatment choice with covariates or with limited validity of experiments. Journal of Econometrics, 166(1), 138-156.
Yata, K. (2023). Optimal decision rules under partial identification. arXiv preprint arXiv:2111.04926.

実際の Stoye (2012) とは少し設定が異なるので，ここでの結果は Montiel Olea et al. (2023) の Proposition 1 を参考にしています． ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up