はじめに

強化学習における行動価値関数と状態価値関数や方策割引率など強化学習における基本的な知識を説明するものです。

割引率

強化学習におけるエージェントが選ぶ行動から得られる価値について後の行動から得られる価値を考慮しないように設定するもの。先に得られる価値を重視するもの。
割引率の式

R(t) = \Sigma_{k=0}^{\infty}\gamma^k R_{t+k+1}

ɤの値を１にすると始め（１番目）の報酬しか考慮せずɤの値を小さくすると後から（エピソードが大きくなってから）もらうことのできる報酬も考慮するという考え方。

強化学習において方策に従って行動した場合の今の状態における収益の期待値のことを指します。将棋で表すとある状態における盤面の状態の価値を表したもの。

V^\pi(s) = E_{\pi}[G_t | S_t=s]

状態価値関数をベルマン方程式に直すと以下のようになる。（ベルマン方程式とはこのままでは計算ができないため、計算ができるように直したものである）

V^\pi(s) = \Sigma_a \pi(a|s)\Sigma_{s',r}[P(s',r|s,a)r+\gamma V^\pi(s')]

方策に従って今の状態sから行動aを選んだ時における次の状態s'になる確率で重みづけを行った状態価値
状態sから行動aをとって状態s′に遷移した場合の報酬を返す。

ある状態における行動を選択したいときにおける価値を表したもの。将棋で表すとある盤面においてある行動を選択したときの価値の期待値を表したもの。

V^\pi(s) = E_{\pi}[G_t | S_t=s,A_t =a]

ベルマン方程式にしたときの行動価値関数

Q^\pi(s) = \Sigma_{s',r}P(s',r|s,a)[r+\gamma V^\pi(s')]

Pは全状態における確率を表している

V^\pi(s) = \Sigma_a\pi(a|s)Q^\pi(s)

上の式で表される。すべての行動価値における価値の総和が今の状態価値になるため。