決定的意思決定モデルを確率的意思決定モデルに変換：ε-greedy method

Last updated at 2024-06-02Posted at 2024-06-01

\pi_{b}\big(a|U_{i}\big)

$\pi_{b}$はポリシー
$U_{i}$はあるユーザーiの属性情報などが入ったベクトル
$a$はポリシーに$U_{i}$を与えた時にポリシーが出力する行動選択

上記を確率的意思決定モデルに変換する

\pi_{\epsilon}\big(a|U_{i}\big) = \epsilon * \pi_{random}\big(a|U_{i}\big) + \big(1-\epsilon\big)*\pi_{b}\big(a|U_{i}\big)

$\epsilon$は任意の確率。
上記は確率$\epsilon$でランダムに行動選択し、$1 - \epsilon$で最適化したポリシーから行動選択するモデルである。

・行動選択の確率を保存しておけば、IPWなどを用い全データを次のモデル学習に利用できる。

・次回モデルの学習の布石として、ランダムに選択したユーザー群を作って、それを施作に組み込むことがある。施作終了後そのわずかなランダムで選択したユーザー群のみで学習させるなくてもよくなる。

施策デザインのための機械学習入門〜データ分析技術のビジネス活用における正しい考え方：