0
0

決定的意思決定モデルを確率的意思決定モデルに変換:ε-greedy method

Last updated at Posted at 2024-06-01

方法

\pi_{b}\big(a|U_{i}\big)

$\pi_{b}$はポリシー
$U_{i}$はあるユーザーiの属性情報などが入ったベクトル
$a$はポリシーに$U_{i}$を与えた時にポリシーが出力する行動選択

上記を確率的意思決定モデルに変換する

\pi_{\epsilon}\big(a|U_{i}\big) = \epsilon * \pi_{random}\big(a|U_{i}\big) + \big(1-\epsilon\big)*\pi_{b}\big(a|U_{i}\big)

$\epsilon$は任意の確率。
上記は確率$\epsilon$でランダムに行動選択し、$1 - \epsilon$で最適化したポリシーから行動選択するモデルである。

確率的意思決定モデルを利用することのメリット

・行動選択の確率を保存しておけば、IPWなどを用い全データを次のモデル学習に利用できる。

・次回モデルの学習の布石として、ランダムに選択したユーザー群を作って、それを施作に組み込むことがある。施作終了後そのわずかなランダムで選択したユーザー群のみで学習させるなくてもよくなる。

参考文献

施策デザインのための機械学習入門〜データ分析技術のビジネス活用における正しい考え方:

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0