LoginSignup
2
5

More than 5 years have passed since last update.

価値反復 (value iteration) と方策反復 (policy iteration)、on-policy と off-policy

Last updated at Posted at 2017-11-27

いつもごっちゃになるのでメモ (間違ってるかも)

価値反復 (value iteration) は、適当な初期価値関数 $Q_0$ と最適方策 $\pi^*$ を用意 (実用上はその時の価値関数に関する (ε-) グリーディ方策しか使えないと思われる) して、ベルマン方程式、つまり1ステップ進めてみたとき得られた報酬で価値関数を更新して $Q_t$ を順次求めていく方法。

方策反復 (policy iteration) は、適当な初期方策 $\pi_{t=0}$ を用意して、
1. 方策評価:$Q^{\pi_t}$ を求める (これめっちゃコストかかる)
2. 方策改善:$\pi_{t+1} = \text{greedy}(Q^{\pi_t})$
を繰り返す方法。

状態だけを見ているときは Q じゃなくて V にすれば同じ

方策勾配法ってのもあるけど、これはまた別のやつ。方策を直接モデル化して最適化する。


2
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
5