はじめに
2019年から強化学習ゼミを実施しています。ゼミで議論になった部分について記録します。
使用している教科書
ディスカッション
maxの意味
(2.2)式では初期状態に依存して$\boldsymbol{\pi}$が決まっても良い。
つまり、$s_1\in\mathcal S$に対して$\boldsymbol{\pi_1}$、$s_2\in\mathcal S$に対して$\boldsymbol{\pi_2}$、、、となってよい、という式である。
\begin{align}
V^\ast(s_1) &= V^{\boldsymbol{\pi_1}}(s_1) \\
V^\ast(s_2) &= V^{\boldsymbol{\pi_2}}(s_2) \\
...&\\
V^\ast(s_N) &= V^{\boldsymbol{\pi_N}}(s_N)
\end{align}
後に任意の初期状態について定常な決定的方策がユニークに最適方策として求められることが明かされます。
maxの分配
(2.4)式と(2.5)式の間にある式について。
\begin{align}
&\max_{\boldsymbol{\pi}\in \boldsymbol{\Pi^M}}\mathbb{E}^\boldsymbol{\pi}[g(s, A_0) + \gamma C_1|S_0 = s] \\
=&\max_{\pi_0\in\Pi}\mathbb{E}^{\pi_0}[g(s,A_0)+\gamma \max_{\{\pi_1,\pi_2,...\}\in\boldsymbol{\Pi^M}}\mathbb{E}^{\{\pi_1,\pi_2,...\}}[C_1|S_1\sim p_T(\cdot|s,A_0)]|S_0=s]
\end{align}
まず、maxの順序は任意に取れる。通常の関数のmax、
\max_{x, y} f(x, y) = \max_x f(x, y(x))
のように$\pi$のmaxも計算される。
\max_{\boldsymbol{\pi}} f(\boldsymbol{\pi}) = \max_{\pi_0} f(\pi_0, \pi_1(\pi_0), \pi_2(\pi_0), ...)
上記の意味で、maxを分配できる。
\begin{align}
\max_{\boldsymbol{\pi}} f(\boldsymbol{\pi}) =& \max_{{\pi_0}} \max_{{\pi_1}}\max_{{\pi_2}}...f(\boldsymbol{\pi})\\
=&\max_{{\pi_0}} \max_{{\pi_1}}f(\pi_0, \pi_1, \pi_2(\pi_0,\pi_1), \pi_3(\pi_0,\pi_1, \pi_2), ...)\\
=&\max_{{\pi_0}} f(\pi_0, \pi_1(\pi_0), \pi_2(\pi_0,\pi_1), \pi_3(\pi_0,\pi_1, \pi_2), ...)
\end{align}
確率方策から決定的方策への転換
(2.5)式の直前の式から(2.5)式への変形について。
\begin{align}
V^\ast(s) =& \max_{\pi_0\in\Pi}\sum_{a_0\in \mathcal A}\pi_0(a_0|s)\Big( g(s,a_0)+\gamma\sum_{s_1\in\mathcal S}p_T(s_1|s,a_0)V^\ast(s_1) \Big) \\
=& \max_{a\in \mathcal A}\Big( g(s,a)+\gamma\sum_{s'\in\mathcal S}p_T(s'|s,a)V^\ast(s') \Big)
\end{align}
この式変形で方策$\pi_0$が消えている。下記の計算で説明する。
maxは値を最大化する分布の選択を、和は$a_0$に対する積分に相当する。
\begin{align}
\max_{p\in \boldsymbol{P}} \int {\mathrm d}x p(x)f(x) = \max_{a}\int {\mathrm d}x \delta(x-a)f(x)
\end{align}
$f(x)$が最大になるところに$p(x)$が集中するときが一番値が大きくなるので、分布は$\delta$関数になり、引数は$f$が最大になるところになる。分布が$\delta$関数になるということは決定的方策になることを示している。
最適方策の初期値非依存性
任意の初期状態について定常な決定的方策がユニークに最適方策として求められる、という点について、どの段階で任意の初期状態について成り立つことが示されたのか?
→命題2.4bのベルマン期待方程式の解の初期値非依存性から受け継がれている。
最適方策の存在性と必要十分条件
命題2.7の(2.28)式を実装で確かめるときはどうすれば良いのか?
→方策反復法(アルゴリズム2.2)では4.の収束判定で収束を確かめたあと、2.の連立方程式を解いて、$V^{\pi^d}$が不変となることを確かめれば良い。価値反復法(アルゴリズム2.1)では3.の収束判定で求めた$v(s)$に対して、$\pi^d_{v'}$を使用した$B_\pi$を作用させて不変であることを確かめればよい。
複数のアクション
アルゴリズム2.1の3.の$\mathrm{argmax}_{a\in \mathcal A}$で同一の最大値になる複数の$a$が見つかったらどうする?
→最適方策は複数あった、ということ?(結論つかず)
おわりに
数学的な部分が色々省略されがちな強化学習ですが、この教科書はかなり厳密な議論がされているのでワクワクです。