0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Trust Region Policy Optimization (TRPO). ニッチな読み物

Last updated at Posted at 2024-07-02

はじめに.

本記事は Trust Region Policy Optimization (TRPO) [cite:https://arxiv.org/abs/1502.05477] の Appendix に関する細々とした記事になります.

Appendix A.

・目的

本節では,TRPO 技術の根幹をなしている「ある更新幅内で上手く更新すれば良い方向に改善される」という考えの証明を行っています. つまり,方策変化によるパフォーマンス変化 $|\eta(\tilde{\pi)} - \eta(\pi)|$ のずれがどのように分解され,bound に影響を与えているかを考えます.
本節の目的は,

\eta(\tilde{\pi}) = \eta(\pi) + \mathbb{E}_{\tau\sim\pi} \left[ \sum_{t=0}^\infty \gamma^t \bar{A}(s_t) \right]

を示し,本論文 Eq.(3) を得て$\color{red}{(前半)}$,surrogate 関数が $\eta(\tilde{\pi})$ とある程度近いこと$\color{red}{(後半)}$を示すことにあります(各記号定義は以降か元論文参照).$\tau$ はエージェントの軌道(推移の履歴) $=(s_0,a_0,s_1,a_1,...)$ です.$\color{red}{s_0~は初期状態確率に従うため,方策~\pi,\tilde{\pi}~に対して独立です.}$

・準備,定義

本論文で用いられている surrogate (代理) 損失関数は,


 L_{\pi}(\tilde{\pi}) = \eta(\pi) + \sum_s \rho_\pi(s) \sum_a \tilde{\pi}(a|s)A_{\pi}(s,a),
 

ここで,$A_\pi, \rho_\pi$ の定義は通常の RL と同様です.
本論文における報酬関数の設定と $\eta(\pi)$ はやや特殊(?)で,

\eta(\pi) = \mathbb{E}_{s_0,a_0,...} \left[ \sum_{t=0}^\infty \gamma^t r(s_t) \right],\\
s_0 \sim \rho_0(s_0), a_t\sim\pi(a_t|s_t), s_{t+1} \sim P(s_{t+1}|s_t,a_t)

となっています.報酬関数は状態のみからのマッピング$:\mathcal{S} \rightarrow \mathbb{R}$ です.(おそらく,$a_t\sim\pi$ で期待値を取るため省略しているのかと思うのですが,$a_t$ が報酬構造に含まれないような限定した表現は奇妙な気がします.) この影響を受けて,状態価値関数 $V_\pi$,行動価値関数 $Q_\pi$ の定義も変わってます.

・解説(前半)

Advantage 関数から,

\begin{align}
&\mathbb{E}_{\tau|\tilde{\pi}}\left[\sum_{t=0}^\infty \gamma^t A_{\color{red}{\pi}} (s_t,a_t) \right] \\
&= \mathbb{E}_{\tau|\tilde{\pi}}\left[\sum_{t=0}^\infty \gamma^t (r(s_t) + \gamma V_\pi (s_{t+1}) - V_\pi(s_t))\right] \qquad \because A_\pi(s,a)\\
&= \mathbb{E}_{\tau|\tilde{\pi}}\left[ \sum_{t=0}^\infty \gamma^t r(s_t) - V_\pi(s_0) \right] 
\quad \because [\color{red}{\gamma V_\pi (s_{1})} - V_\pi(s_0)] - \gamma[\color{blue}{\gamma V_\pi (s_{2})} - \color{red}{V_\pi(s_1)}]...
\\
    &=  \mathbb{E}_{\tau|\tilde{\pi}} \left[\sum_{t=0}^\infty \gamma^t r(s_t) \right] -\mathbb{E}_{s_0}[V_\pi(s_0)] \qquad \because V_\pi(s_0),\tau|\tilde{\pi}~は独立 \\
&= \eta(\tilde{\pi}) - \eta(\pi)
\end{align}

となります.よって,

\eta(\tilde{\pi}) = \eta(\pi) + \mathbb{E}_{\tau|\color{blue}{\tilde{\pi}}} \left[\sum_{t=0}^\infty \gamma^t A_{\color{red}{\pi}} (s_t,a_t) \right] 

です.$\tau$ が状態を要素に持つため,状態が $\color{blue}{\tilde{\pi}}$ に依存します.このままでは本論文 Eq.(2) と同様に $\color{blue}{\tilde{\pi}}$ の処理が面倒です.そこで,

\bar{A}(s) = \mathbb{E}_{a\sim\color{blue}{\tilde{\pi}}(\cdot|s)} \left[A_\pi(s,a) \right] 

と advantage 関数の期待値を定義し,代理関数 $L_\pi$ を導入することで対処を試みます.

L_\pi(\tilde{\pi}) = \eta(\pi) + \mathbb{E}_{\tau\sim\pi} \left[ \sum_{t=0}^\infty \gamma^t 
 \bar{A}(s) \right] 

これこそ本論文の Eq.(3) です.

・解説(後半)

準備中...

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?