方法
\pi_{b}\big(a|U_{i}\big)
$\pi_{b}$はポリシー
$U_{i}$はあるユーザーiの属性情報などが入ったベクトル
$a$はポリシーに$U_{i}$を与えた時にポリシーが出力する行動選択
上記を確率的意思決定モデルに変換する
\pi_{\epsilon}\big(a|U_{i}\big) = \epsilon * \pi_{random}\big(a|U_{i}\big) + \big(1-\epsilon\big)*\pi_{b}\big(a|U_{i}\big)
$\epsilon$は任意の確率。
上記は確率$\epsilon$でランダムに行動選択し、$1 - \epsilon$で最適化したポリシーから行動選択するモデルである。
確率的意思決定モデルを利用することのメリット
・行動選択の確率を保存しておけば、IPWなどを用い全データを次のモデル学習に利用できる。
・次回モデルの学習の布石として、ランダムに選択したユーザー群を作って、それを施作に組み込むことがある。施作終了後そのわずかなランダムで選択したユーザー群のみで学習させるなくてもよくなる。
参考文献
施策デザインのための機械学習入門〜データ分析技術のビジネス活用における正しい考え方: