1. はじめに
この記事では、反実仮想機械学習におけるオフ方策評価について、理論的な側面を中心に紹介します。
2. 反実仮想機械学習
反実仮想機械学習(Counterfactual Machine Learning: CFML)とは、機械学習を応用し、起こり得たが実際には起こらなかった状況=反実仮想(Counterfactual)の推論などをする技術です。この技術は、ビジネスにおける方策(販促キャンペーンの実施や新機能の追加など)の効果を評価するケースなどの応用を含め、最近盛んに研究されている技術です。例えば、ある店舗やWebページで販促キャンペーンを実施した場合、もし仮にキャンペーンを実施しなかった場合や、別のキャンペーンを行った場合に、どの程度の売上になったのかのデータを得ることはできず1、「このキャンペーンによってどれだけ売上が増えたのか?」という問いに答えることは難しいです。しかし、反実仮想を考えることで、実際にはとらなかった方策をとった場合の結果を予測・推定し、それをもとにキャンペーンの効果を検証することで、キャンペーンの継続・中止の判断や内容変更などの意思決定に活用することができます。
この反実仮想にもとづく推論自体は、従来から統計的因果推論の分野において「反事実モデル(Counterfactual Model)」(岩崎(2015))や「潜在的な結果変数(Potential Outcomes)」(星野(2009))などといった形で扱われてきたものと大差ありません。しかし、例えばWebサイト上での商品の推薦を個人や属性ごとに最適化する高度なパーソナライゼーションなど、ビジネスにおいて複雑な方策が求められるとともに、それを支える技術の発展に伴って、複雑な過程を経て得られたデータを分析する手段として機械学習が活用されるケースが増えています。反実仮想機械学習で扱われるテーマは様々ですが、最近では特に、方策の意思決定の評価をログデータで行うオフ方策評価(OPE: Off-Policy Evaluation)、反実仮想による機械学習モデルの説明手法(Counterfactual Explanation) に注目が集まっている印象があります。この記事では、その中でも、オフ方策評価の紹介をします。
3. オフ方策評価
3-1. オフ方策評価とは
オフ方策評価とは、先程述べた通り、方策の意思決定の評価をログデータで行うことを指します。方策の意思決定の評価は、通常A/Bテストのように実際のビジネス環境で行うことが多いです。しかし、実際のビジネスに方策を適用するには、機会損失などのリスクがある上、コストもかかるため慎重に行う必要があります。オフ方策評価はログデータを活用するため、実際のビジネスに方策を適用する際に生じるリスクやコストを回避・軽減することができます。また、オフ方策評価の結果をもとに方策を選定したうえで実際のビジネス環境で試すことで、より効率的に方策を決定することができます。オフ方策評価は、強化学習(Reinforcement Learning)として捉えることもでき、Uehara et al.(2022) のレビュー論文にもまとめられています。なお、ここでいう意思決定に用いるモデルは、各行動を選択する確率が算出できるものを想定しています2。
次節以降では、以下の表記を使って3種類の評価方法(Direct Method・IPS推定量・DR推定量)の紹介をします。この表記は、Uehara et al.(2022)のレビュー論文を参考にしています。
- 方策(policy)
- $\pi$:方策
- $\pi_0$:現行の方策
- $V_{\pi}$:方策 $\pi$ の価値
- 行動(action)
- $\mathscr{A}$:行動の集合
- $a (\in \mathscr{A})$:行動の要素
- $A$:行動の確率変数
- $a_i$:行動の実現値
- 特徴量(context)
- $\mathscr{X}$:特徴量のベクトル空間
- $X\sim q(x)$:確率密度関数 $q(x)$ から得られる特徴量ベクトル
- $x_i$:特徴量ベクトルの実現値
- 報酬(reward)
- $R$:報酬の確率変数
- $r_i$:報酬の実現値
- $r(a,x)$:特徴量 $x$ と行動 $a$ がもたらす報酬
- データ
- $D (=\{a_i,x_i,r_i\}_{i=1}^n)$:ログデータ($n$ はデータ数)
上記の表記を用いると、オフ方策評価は「現行の方策 $\pi_0$ のもとで得られたログデータ $D$ を用いて、方策 $\pi$ の価値 $V_{\pi}$ を推定すること」と表現できます。方策の価値とは、報酬の期待値 $r(a, x) = E[r|x, a]$ を指します。また、方策 $\pi$ の価値の推定に際し、ここでは以下の3つの仮定を置いています。
- 仮定1. 特徴量を条件付けたとき、行動と報酬は独立である3
- 仮定2. 特徴量を条件付けたとき、行動を選択する確率は0より大きい:$\pi(a |x)>0$
- 仮定3. Consistency:$R=R(A)$
仮定1.は、評価計算を扱いやすくするために置く仮定です。仮定2. は、オフ方策評価の計算の中で確率の逆数を扱うため、この確率は0にならないとする仮定です。仮定3. は、もし行動の定義が曖昧だと、得られた結果(報酬)が想定していた行動に由来するとは限らなくなり、明確に結果を区別できなくなるため、報酬はある行動の報酬と一貫していることを想定しています。
3-2. Direct Method (DM)
Direct Method (DM) は、報酬を直接推定する方法です。DMは、特徴量 $x_i$ と行動 $a$ がもたらす報酬 $r(a, x)$ を推定するモデルを作成したうえで、その推定値 $\hat r(a, x_i)$ をもとに方策 $\pi$ の価値を推定します。DMで推定される方策 $\pi$ の価値 $\hat V_\pi^{DM}$ は以下の式で表されます。
\hat V_\pi^{DM}=\frac{1}{n} \sum_{i=1}^n \bigg\{\sum_{a \in \mathscr{A}}~\hat r (a,x_i) \pi(a|x_i)\bigg\}
ここで、$\pi(a_i |x_i)$は、方策 $\pi$ において特徴量 $x_i$ を所与とした場合に行動 $a_i$ を選択する確率を表します。つまり、上式の $\sum_{a \in \mathscr{A}}~\hat r (a,x_i) \pi(a|x_i)$ は、$i$ 番目のログデータにおける報酬の期待値を表します。そして、この期待値の平均を方策の価値の推定量としています。
DMは報酬を推定するモデル自体は特に指定していないため、通常の重回帰やLightGBMなど様々なモデルが活用できます。ただし、実際に選択されず、観測できなかった行動に対する報酬を予測値で代用するため、報酬の推定モデルに対して高い汎化性能が要求されます。そのため、いわゆる過学習が起きないように、たとえばChernozhukov et al.(2018)のCross-fittingを用いる方法があります。Cross-fittingの手順は以下の通りです。
- データ $D$ を均等に $K$(2以上の整数)個に分割し(K-fold)、分割されたデータを $D_k (k=1,...,K)$、$D_k$ 以外のデータを $D_{(k)}$ と表記する。
- $D_{(k)}$ を使ってモデル $m(D_{(k)})$を学習する。
- モデル $m(D_{(k)})$ にデータ $D_k$ を適用し、推定値を得る。
3-3. IPS推定量
IPS(Inverse Propensity Score)推定量4は、報酬の実現値 $r_i$ の重み付き平均値で報酬を推定する方法です。IPS推定量は以下の式で表されます。
\hat V_\pi^{IPS}=\frac{1}{n} \sum_{i=1}^n w(a_i,x_i)r_i
ここで、重みとして重要度(importance) $w(a_i,x_i)=\frac{\pi(a_i |x_i)}{\pi_0 (a_i |x_i)}$ を使っています。この重みは、評価対象である方策 $\pi$ において行動 $a_i$ を選択する確率を、ログデータが取得できている現行の方策 $\pi_0$ において行動 $a_i$ を選択する確率で割った値であり、現行の方策における特定の行動の選択されやすさに起因するバイアスを除去する役割を果たします。また、IPS推定量は、DMと異なり報酬を推定するモデルを使用しないので、モデルに由来するバイアスがないのが特徴です。
モデルに由来するバイアスがないことを数式で確認したい方はこちらをご参考ください。
推定したい方策の価値について整理すると、
\begin{align}
V_{\pi}&=E_{(A,X)\sim \pi(a|x)q(x)}[r(A,X)]\\
&=E_{X\sim q(x)}\big[E_{A|X=x~\sim \pi(a|x)}[r(A,X)|X=x]\big]\\
&=\int_\mathscr{X} \bigg\{\sum_{a\in \mathscr{A}} \thinspace r(a,x)\pi(a|x)\bigg\}q(x)dx\\
&=\int_\mathscr{X} \bigg\{\sum_{a\in \mathscr{A}} \frac{\pi(a |x)}{\pi_0 (a |x)}r(a,x)\pi_0(a|x)\bigg\}q(x)dx\\
&=\int_\mathscr{X} \bigg\{\sum_{a\in \mathscr{A}} w(a,x)r(a,x)\pi_0(a|x)\bigg\}q(x)dx\\
&=E_{(A,X)\sim \pi_0(a|x)q(x)}[w(A,X)r(A,X)]
\end{align}
が成立します。IPS推定量は、$r(a_i,x_i)=r_i$であることに注意すると、最後の式をそのまま平均値に置き換えた推定量と考えることで、IPS推定量がバイアスなく $V_{\pi}$ を推定可能であることがわかります。また、IPS推定量では $a\in \mathscr{A}$ での和を直接計算する必要がなく、明示的に $r(a,x)$ に対する仮定を置いていないこともわかります。
一方、DMは $\int_\mathscr{X} {\sum_{a\in \mathscr{A}} \thinspace r(a,x)\pi(a|x)q(x)}dx$ をそのまま平均値に置き換えた推定量であり、$r(a,x)$ を $\hat r(a,x)$ で代用した上で $r(a,x)\pi(a|x)$ を直接計算していると考えられます。つまり、DMでは $r(a,x)$ が正しく推定できていない、つまり $\hat r(a,x)\neq r(a,x)$である場合は、$V_{\pi}$ の推定値にバイアスが入ることになります。
ただし、IPS推定量は確率を重みとして使用しているため、重みが極端に大きくなることがあり、推定値が安定しない(推定値の分散が大きくなる)ことがあります。対処法は様々ありますが、例えばある定数 $\lambda$ 以上の値を持つ重みは $\lambda$ で丸めてしまうclipped-IPS推定量があります5。
\hat V_\pi^{clippedIPS}=\frac{1}{n} \sum_{i=1}^n \min\{w(a_i,x_i ),\lambda\}r_i
3-4. DR推定量
DR(Doubly Robust)推定量は、DMとIPS推定量を組み合わせて報酬を推定する方法です。DR推定量は以下の式で表されます。
\hat V_\pi^{DR}=\hat V_\pi^{DM}+\frac{1}{n} \sum_{i=1}^n w(a_i,x_i ) (r_i-\hat r(a_i,x_i))
なぜDMとIPS推定量を組み合わせるのかをご説明するにあたって、そもそも方策の価値の推定値はどういう値であれば適切なのかを考えます。方策の価値の推定値は、真の価値と近い値をとることが望ましいです。つまり、方策の価値の推定値の誤差 $MSE = E[(\hat V_\pi - V_\pi)^2]$ が小さいことが望ましいです。ここで、誤差は以下のようにBias項とVariance項に分解することができ、BiasとVarianceの双方が小さいことが望ましいと言えます。
\begin{align}
MSE = E[(\hat V_\pi - V_\pi)^2] &= (E[\hat V_\pi - V_\pi])^2 +\{E[(\hat V_\pi - V_\pi)^2]-(E[\hat V_\pi - V_\pi])^2 \}\\
&=Bias^2 +Variance
\end{align}
ただし、一般的にBiasとVarianceにはトレードオフの関係があります。実は、先程紹介したDMはBiasが大きい一方でVarianceが小さく、IPS推定量はVarianceが大きい一方でBiasが小さい傾向にあります。そこで、DR推定量はDMとIPS推定量を適切に組み合わせることで、BiasとVarianceの双方を小さくすることを狙っています。DR推定量は、報酬を推定するモデルが誤っていても、IPS同様にモデルに由来するバイアスがないという特徴があります。
モデルに由来するバイアスがないことを数式で確認したい方はこちらをご参考ください。
推定したい方策の価値について整理すると、
\begin{align}
V_{\pi}&=\int_\mathscr{X} \bigg\{\sum_{a\in \mathscr{A}} \thinspace r(a,x)\pi(a|x)q(x)\bigg\}dx\\
&=\int_\mathscr{X} \bigg\{\sum_{a\in \mathscr{A}} \thinspace \big[r(a,x) - \hat r(a,x) + \hat r(a,x)\big]\pi(a|x)q(x)\bigg\}dx\\
&=\int_\mathscr{X} \bigg\{\sum_{a\in \mathscr{A}} \thinspace \hat r(a,x)\pi(a|x)q(x)\bigg\}dx\\
&~~~~~~~+\int_\mathscr{X} \bigg\{\sum_{a\in \mathscr{A}} \thinspace [r(a,x) - \hat r(a,x) ]\pi(a|x)q(x)\bigg\}dx\\
&=\int_\mathscr{X} \bigg\{\sum_{a\in \mathscr{A}} \thinspace \hat r(a,x)\pi(a|x)q(x)\bigg\}dx\\
&~~~~~~~+\int_\mathscr{X} \bigg\{\sum_{a\in \mathscr{A}} \frac{\pi(a |x)}{\pi_0 (a |x)}\{r(a,x) - \hat r(a,x)\}\pi_0(a|x)q(x)\bigg\}dx\\
&=\int_\mathscr{X} \{\sum_{a\in \mathscr{A}} \thinspace \hat r(a,x)\pi(a|x)q(x)\}dx\\
&~~~~~~~+E_{(A,X)\sim \pi_0(a|x)q(x)}[w(A,X)\{r(A,X) - \hat r(A,X)\}]
\end{align}
が成立します。DR推定量は、$r(a_i,x_i)=r_i$ であることに注意すると、一番下の式の標本対応として考えることができ、$r(a,x)$ が正しく推定できていない、つまり $\hat r(a,x)\neq r(a,x)$である場合でもバイアスなく $V_{\pi}$ を推定可能であることがわかります。
3-5. DR推定量の派生
DR推定量はIPS推定量と同じ重みを用いているため、重みが極端に大きいときに推定が安定しない(分散が大きくなる)ことがあります。この場合に対処する発展形の手法として、SwitchDR、DRps(DR with pessimistic shrinkage)、DRos(DR with optimistic shrinkage)を紹介します。
3-5-1. SwitchDR
SwitchDR(Wang et al.(2017))は、重みに使用している重要度が $\lambda$ 以下ならDR、そうでなければDMを用いて計算する方法です。SwitchDRは以下の式で表されます。
\begin{align}
\hat V_\pi^{SwitchDR}&= \frac{1}{n}\sum_{i=1}^n \bigg[I\{w(a_i,x_i )>\lambda\} \sum_{a \in A}\hat r(a,x_i) \pi(a|x_i)\\
&~~~~~~~~~~~~~~~+I\{w(a_i,x_i )\leq \lambda\}\big\{w(a_i,x_i)\big(r_i-\hat r(a_i,x_i)\big) \\
&~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~+\sum_{a\in A}\hat r(a,x_i)\pi(a|x_i)\big\}\bigg]\\
&= \frac{1}{n} \sum_{i=1}^n \bigg[\sum_{a\in A}\hat r(a,x_i)\pi(a|x_i)\\
&~~~~~~~~~~~~~~~~~+I\{w(a_i,x_i )\leq \lambda\}w(a_i,x_i)\big(r_i-\hat r(a_i,x_i)\big)\bigg]\\
\end{align}
ここで、$I\{\cdot\}$は、条件式が成り立つときに1、成り立たないときに0をとる指示関数です。SwitchDRは、大きな値をとる重要度に対して頑健(robust)であり、$\lambda\to 0$とした場合にDM、$\lambda \to \infty$とした場合にDRに一致します。
3-5-2. DRps
DRps(DR with pessimistic shrinkage)(Su et al.(2020a))は、clippedIPSと同様のアイデアを用いて、DRにおいて重要度が $\lambda$ 以上の値を取る場合に $\lambda$ に置き換える手法です。DRpsは以下の式で表されます。
\hat V_\pi^{DRps}=\hat V_\pi^{DM}+\frac{1}{n} \sum_{i=1}^n \min\{w(a_i,x_i ),\lambda\} (r_i-\hat r(a_i,x_i))
$\lambda\to 0$とした場合にDM、$\lambda \to \infty$とした場合にDRに一致します。また、重みの置き換え方はSu et al.(2019)のCAB-DR(Continuous Adaptive Blending-DR)と同様です。アイデア自体はシンプルですが、MSEを抑制するために上界を考慮し、重みに着目した関数に対するパレートフロントを解く形で導出された推定量です。つまり、新たに導入する重みを $\hat w(a_i,x_i)$、$\hat r(a,x)$ を推定する際に使用したデータに対する重みを $z(a,x)$ としたとき、$\hat w(a_i,x_i)$ にもとづくMSEの上界が
E\big[\{\hat w(a_i,x_i)-w(a,x)\}^2 / z(a,x)\big]L(\hat r)+\sqrt{L(\hat r)E\big[\hat w(a_i,x_i)^2w(a,x)^2/ z(a,x)\big]}+\frac{1}{n}\\
(ただしL(\hat r)=E[z(a,x)\{r-\hat r(a,x)\}^2])
となることに着目し、これを$\hat w(a_i,x_i)$をもとに最小化する多目的最適化問題と見做した上で、
2\lambda E\big[|\hat w(a_i,x_i)-w(a,x)|\big]+E\big[\hat w(a_i,x_i)^2\big]
を最小にする解として導出されています(Su et al.(2020a))。直接上界が最小になるように解いているわけではないため、pessimisticという名称が付いています。
3-5-3. DRos
DRos(DR with optimistic shrinkage)(Su et al.(2020a))は、DRpsと同様にMSEの上界を考慮しますが、直接MSEの上界の最小化を行う方法で重みを導出した手法です。DRpsは以下の式で表されます。
\hat V_\pi^{DRos}=\hat V_\pi^{DM}+\frac{1}{n} \sum_{i=1}^n \frac{\lambda}{w^2 (a_i,x_i )+\lambda} w(a_i,x_i) (r_i-\hat r(a_i,x_i))
$\lambda\to 0$とした場合にDM、$\lambda \to \infty$とした場合にDRと一致します。また、DRosで用いる重みについて、$w(a_i,x_i)>0$ であるため、$\frac{\lambda}{w^2 (a_i,x_i )+\lambda} w(a_i,x_i) < w(a_i,x_i)$ が成り立ちます。DRosでは、
\lambda E\big[\{\hat w(a_i,x_i)-w(a,x)\}^2 / z(a,x)\big]+E\big[\hat w(a_i,x_i)^2w(a,x)^2/ z(a,x)\big]
の最小化を考え、$\hat w(a_i,x_i)$による一階微分が0になるときの解を導出しており、直接MSEの上界の最小化を考えているため、optimisticという名称が付いています。
4. まとめ
この記事では、反実仮想機械学習におけるオフ方策評価を紹介しました。今回は3-1. で述べた3つの仮定が成立している場合に焦点を当てましたが、仮定が成り立たないとき6はどうすべきかなど、実務で適用する場合に起こり得る問題に対応した分析手法も研究されています。また、紹介しきれなかったものとして、より発展的な推定手法(例えばMetelli et al.(2021)のIS-$\lambda$・DR-$\lambda$)や、分割したデータをもとに最適な推定量を選択する方法(Udagawa et al.(2022))などもあります。
次回は、今回紹介した手法を用いた実装例を紹介する予定です。
5. 参考文献
(英語(アルファベット順)→日本語(あいうえお順)で記載)
IS-$\lambda$・DR-$\lambda$に関する文献:Metelli, A. M., Russo, A., & Restelli, M. (2021). Subgaussian and differentiable importance sampling for off-policy evaluation and learning. Advances in Neural Information Processing Systems, 34, 8119-8132.
clipped-IPSに関する文献:Strehl, A., Langford, J., Li, L., & Kakade, S. M. (2010). Learning from logged implicit exploration data. Advances in neural information processing systems, 23.
DRos、DRpsに関する文献(Su et al.(2020a)):Su, Y., Dimakopoulou, M., Krishnamurthy, A., & Dudik, M. (2020). Doubly robust off-policy evaluation with shrinkage. In International Conference on Machine Learning (pp. 9167-9176). PMLR.
分割したデータをもとに最適な推定量を選択する方法に関する文献:Udagawa, T., Kiyohara, H., Narita, Y., Saito, Y., & Tateno, K. (2022). Policy-Adaptive Estimator Selection for Off-Policy Evaluation. arXiv preprint arXiv:2211.13904.
強化学習におけるオフ方策評価に関するレビュー論文:Uehara, M., Shi, C., & Kallus, N. (2022). A Review of Off-Policy Evaluation in Reinforcement Learning. arXiv preprint arXiv:2212.06355.
反実仮想機械学習に関する書籍:齋藤優太, 安井翔太. (2021). 施策デザインのための機械学習入門-データ分析技術のビジネス活用における正しい考え方. 技術評論社
観察データに対する統計的因果推論に関する本:星野崇宏. (2009). 調査観察データの統計科学-因果推論・選択バイアス・データ融合. 確率と情報の科学, 岩波書店
統計的因果推論に関する本:岩崎学. (2015). 統計的因果推論. 統計スタンダード, 朝倉書店
-
これは因果推論における根本問題(the Fundamental Problem of Causal Inference)と呼ばれるもの(Holland(1986))に起因します。すなわち、「ある個体に対し、処置を適用した結果と適用しなかった結果を同時に観測することはできないため、ある個体への処置の効果そのものを観測することは不可能である」という問題により、キャンペーンを実施した場合と実施しなかった場合の結果は同時には観測できません。そのため、実際の分析ではA/Bテストのようにデータの収集過程を工夫したり、CausalImpactのようにデータに関して仮定を置いた上で解析する手法を用いることで、観測できない結果を推定するアプローチをとることが一般的です。 ↩
-
例えばルールベースでの意思決定でも、確率的な条件にしたがって行動が決まるのであれば各行動の確率が計算可能なので問題ありません。ただし、ログを残していないなどの理由で、現行の方策における各行動の確率がわからない場合は、別途推定する必要があります。その場合に関しては本記事では扱いませんが、例えば「各行動の確率の推定モデルが真のモデルと一致しない場合、それに起因するバイアスが評価結果に含まれてしまう」といった課題があります。 ↩
-
確率変数を用いた表現をすると、任意の $a$ について、$R(a)$ と $A$ が $X$ を条件づけた場合に独立となることを意味します。言い換えると、$X$ を条件づけた場合 $A=a'(a\neq a')$ であるときに潜在的な結果 $R(a)$ には影響を与えない(潜在的に考えている行動 $a$ の結果はほかの行動 $a'(a\neq a')$ に依存しない)ことを表します。 ↩
-
IPW(Inverse Probability Weighting)推定量と呼ばれることもありますが、統計的因果推論の文脈で提案されているIPW推定量との混乱を避けるため、ここではIPS推定量と呼ぶことにしています。 ↩
-
ここではSu et al.(2020a)での定義に合わせています。 ↩
-
例えば、商品のレコメンドやWeb検索を考えると、上位の商品や検索結果しか最初の画面に表示されないため、スクロールしない限り下位のものは閲覧される確率が0になり得ます。 ↩