価値反復 (value iteration) と方策反復 (policy iteration)、on-policy と off-policy #強化学習

いつもごっちゃになるのでメモ (間違ってるかも)

価値反復 (value iteration) は、適当な初期価値関数 $Q_0$ と最適方策 $\pi^*$ を用意 (実用上はその時の価値関数に関する (ε-) グリーディ方策しか使えないと思われる) して、ベルマン方程式、つまり1ステップ進めてみたとき得られた報酬で価値関数を更新して $Q_t$ を順次求めていく方法。

方策反復 (policy iteration) は、適当な初期方策 $\pi_{t=0}$ を用意して、
1. 方策評価：$Q^{\pi_t}$ を求める (これめっちゃコストかかる)
2. 方策改善：$\pi_{t+1} = \text{greedy}(Q^{\pi_t})$
を繰り返す方法。

状態だけを見ているときは Q じゃなくて V にすれば同じ

方策勾配法ってのもあるけど、これはまた別のやつ。方策を直接モデル化して最適化する。