1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

強化学習ゼミ記録【森村哲郎】Chapter1

Last updated at Posted at 2019-08-31

はじめに

2019年から強化学習ゼミを実施しています。ゼミで議論になった部分について記録します。

使用している教科書

ディスカッション

方策のサイズの数え方

表1.2の方策サイズを考える。方策は$|\pi(a|s)| = |\mathcal{A}|^{|\mathcal{S}|}$と数えられ
具体的に$|\mathcal{A}|=2, |\mathcal{S}|=2$とする。

決定的マルコフ方策の系列の集合$\Pi^d$では方策が現在の状態にのみ依存するので、ステップで方策の数は変化しない。

|\pi(a_t | s_t)| = |\mathcal{A}|^{|\mathcal{S}|} = 2^2 = 4

非定常な決定的マルコフ方策系列の集合$\boldsymbol{\Pi}^{MD}_{0:T}$では方策が時間に依存するので、各時間ごとに異なる方策が存在する。

\begin{align}
&|\pi(a_T | s_T)|\times|\pi(a_{T-1} | s_{T-1})|\times...\times|\pi(a_{0} | s_{0})| \\
& = |\mathcal{A}|^{|\mathcal{S}|} \times |\mathcal{A}|^{|\mathcal{S}|} \times...\times |\mathcal{A}|^{|\mathcal{S}|}\\
& = (|\mathcal{A}|^{|\mathcal{S}|})^{T+1}\\
& = (2^2)^{T+1}
\end{align}

履歴依存な決定的マルコフ方策系列の集合$\boldsymbol{\Pi}^{HD}_{0:T}$では方策が過去の履歴全てに依存するので、各時間ごとに過去の状態、行動全てを数える必要がある。

\begin{align}
& |\pi(a_T | s_T, a_{T-1},...,s_{0})|\times...\times|\pi(a_{1} | s_{1}, a_{0}, s_{0})|\times|\pi(a_{0} | s_{0})| \\
& = |\mathcal{A}|^{|\mathcal{S}|^{T+1}|\mathcal{A}|^{T}}\times... \times |\mathcal{A}|^{|\mathcal{S}|^{2}|\mathcal{A}|^{1}} \times |\mathcal{A}|^{|\mathcal{S}|} \\
& =  \prod_{t=0}^{T} |\mathcal{A}|^{|\mathcal{S}|^{t+1}|\mathcal{A}|^{t}}\\
& = \prod_{t=0}^{T} 2^{2^{2t+1}}
\end{align}

エルゴード性

マルコフ過程がエルゴードならば定常分布を持つ。

  • 既約が必要なのはなぜ?
    遷移行列を作用させていって収束する先が非連結なので、どちらの空間にいくか初期値に依存する。したがって初期値に依存して収束する分布が変わってしまうので、定常ではない(で、いいのか?)。

  • 非周期が必要なのはなぜ?
    周期性を持つと、例えばある状態Sに到達できるのは周期Nのときのみ、となり値が振動する(かつ既約性よりゼロには収束しない)ので、$t\rightarrow \infty$で$|p_t(S)- p_{t-1}(S)| < \varepsilon $なる十分小さい$\varepsilon$が存在しない。したがって非周期の必要がある。

分位点の求め方

表1.6の遷移について0.05分位点を求める。pが遷移確率、Rは累積報酬。

$\pi^2_A$: ACDの遷移。分位点0.05、つまりRが小さい方から累積確率が0.05になるのはA-C_jam-Dの遷移でRは-50。

A
├ C_normal
│ └ D  (p=0.8, R=-35)
└ C_jam
  ├ D  (p=0.16, R=-50)
  └ C_accident  
    └ D  (p=0.04, R=-100)

$\pi^4_A$: ACDの遷移。分位点0.05はA-C_jam-B_jam-Dの遷移でRは-85。

A
├ C_normal
│ └ D  (p=0.8, R=-35)
└ C_jam
  └ B_jam
    └ D  (p=0.2, R=-85)

$\pi^2_{C_{jam}}$: Bも経由する遷移。分位点0.05はC_jam-B_jam-Dの遷移でRは-75。

C_jam
└ B_jam
    └ D  (p=1.0, R=-75)

他も同様にして求められる。

おわりに

数学的な部分が色々省略されがちな強化学習ですが、この教科書はかなり厳密な議論がされているのでワクワクです。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?