はじめに
2019年から強化学習ゼミを実施しています。ゼミで議論になった部分について記録します。
- 強化学習ゼミ記録【森村哲郎】Chapter2
- 強化学習ゼミ記録【森村哲郎】Chapter3(欠番)
- 強化学習ゼミ記録【森村哲郎】Chapter4
使用している教科書
ディスカッション
方策のサイズの数え方
表1.2の方策サイズを考える。方策は$|\pi(a|s)| = |\mathcal{A}|^{|\mathcal{S}|}$と数えられ
具体的に$|\mathcal{A}|=2, |\mathcal{S}|=2$とする。
決定的マルコフ方策の系列の集合$\Pi^d$では方策が現在の状態にのみ依存するので、ステップで方策の数は変化しない。
|\pi(a_t | s_t)| = |\mathcal{A}|^{|\mathcal{S}|} = 2^2 = 4
非定常な決定的マルコフ方策系列の集合$\boldsymbol{\Pi}^{MD}_{0:T}$では方策が時間に依存するので、各時間ごとに異なる方策が存在する。
\begin{align}
&|\pi(a_T | s_T)|\times|\pi(a_{T-1} | s_{T-1})|\times...\times|\pi(a_{0} | s_{0})| \\
& = |\mathcal{A}|^{|\mathcal{S}|} \times |\mathcal{A}|^{|\mathcal{S}|} \times...\times |\mathcal{A}|^{|\mathcal{S}|}\\
& = (|\mathcal{A}|^{|\mathcal{S}|})^{T+1}\\
& = (2^2)^{T+1}
\end{align}
履歴依存な決定的マルコフ方策系列の集合$\boldsymbol{\Pi}^{HD}_{0:T}$では方策が過去の履歴全てに依存するので、各時間ごとに過去の状態、行動全てを数える必要がある。
\begin{align}
& |\pi(a_T | s_T, a_{T-1},...,s_{0})|\times...\times|\pi(a_{1} | s_{1}, a_{0}, s_{0})|\times|\pi(a_{0} | s_{0})| \\
& = |\mathcal{A}|^{|\mathcal{S}|^{T+1}|\mathcal{A}|^{T}}\times... \times |\mathcal{A}|^{|\mathcal{S}|^{2}|\mathcal{A}|^{1}} \times |\mathcal{A}|^{|\mathcal{S}|} \\
& = \prod_{t=0}^{T} |\mathcal{A}|^{|\mathcal{S}|^{t+1}|\mathcal{A}|^{t}}\\
& = \prod_{t=0}^{T} 2^{2^{2t+1}}
\end{align}
エルゴード性
マルコフ過程がエルゴードならば定常分布を持つ。
-
既約が必要なのはなぜ?
遷移行列を作用させていって収束する先が非連結なので、どちらの空間にいくか初期値に依存する。したがって初期値に依存して収束する分布が変わってしまうので、定常ではない(で、いいのか?)。 -
非周期が必要なのはなぜ?
周期性を持つと、例えばある状態Sに到達できるのは周期Nのときのみ、となり値が振動する(かつ既約性よりゼロには収束しない)ので、$t\rightarrow \infty$で$|p_t(S)- p_{t-1}(S)| < \varepsilon $なる十分小さい$\varepsilon$が存在しない。したがって非周期の必要がある。
分位点の求め方
表1.6の遷移について0.05分位点を求める。pが遷移確率、Rは累積報酬。
$\pi^2_A$: ACDの遷移。分位点0.05、つまりRが小さい方から累積確率が0.05になるのはA-C_jam-Dの遷移でRは-50。
A
├ C_normal
│ └ D (p=0.8, R=-35)
└ C_jam
├ D (p=0.16, R=-50)
└ C_accident
└ D (p=0.04, R=-100)
$\pi^4_A$: ACDの遷移。分位点0.05はA-C_jam-B_jam-Dの遷移でRは-85。
A
├ C_normal
│ └ D (p=0.8, R=-35)
└ C_jam
└ B_jam
└ D (p=0.2, R=-85)
$\pi^2_{C_{jam}}$: Bも経由する遷移。分位点0.05はC_jam-B_jam-Dの遷移でRは-75。
C_jam
└ B_jam
└ D (p=1.0, R=-75)
他も同様にして求められる。
おわりに
数学的な部分が色々省略されがちな強化学習ですが、この教科書はかなり厳密な議論がされているのでワクワクです。