はじめに.
本記事は Trust Region Policy Optimization (TRPO) [cite:https://arxiv.org/abs/1502.05477] の Appendix に関する細々とした記事になります.
Appendix A.
・目的
本節では,TRPO 技術の根幹をなしている「ある更新幅内で上手く更新すれば良い方向に改善される」という考えの証明を行っています. つまり,方策変化によるパフォーマンス変化 $|\eta(\tilde{\pi)} - \eta(\pi)|$ のずれがどのように分解され,bound に影響を与えているかを考えます.
本節の目的は,
\eta(\tilde{\pi}) = \eta(\pi) + \mathbb{E}_{\tau\sim\pi} \left[ \sum_{t=0}^\infty \gamma^t \bar{A}(s_t) \right]
を示し,本論文 Eq.(3) を得て$\color{red}{(前半)}$,surrogate 関数が $\eta(\tilde{\pi})$ とある程度近いこと$\color{red}{(後半)}$を示すことにあります(各記号定義は以降か元論文参照).$\tau$ はエージェントの軌道(推移の履歴) $=(s_0,a_0,s_1,a_1,...)$ です.$\color{red}{s_0~は初期状態確率に従うため,方策~\pi,\tilde{\pi}~に対して独立です.}$
・準備,定義
本論文で用いられている surrogate (代理) 損失関数は,
L_{\pi}(\tilde{\pi}) = \eta(\pi) + \sum_s \rho_\pi(s) \sum_a \tilde{\pi}(a|s)A_{\pi}(s,a),
ここで,$A_\pi, \rho_\pi$ の定義は通常の RL と同様です.
本論文における報酬関数の設定と $\eta(\pi)$ はやや特殊(?)で,
\eta(\pi) = \mathbb{E}_{s_0,a_0,...} \left[ \sum_{t=0}^\infty \gamma^t r(s_t) \right],\\
s_0 \sim \rho_0(s_0), a_t\sim\pi(a_t|s_t), s_{t+1} \sim P(s_{t+1}|s_t,a_t)
となっています.報酬関数は状態のみからのマッピング$:\mathcal{S} \rightarrow \mathbb{R}$ です.(おそらく,$a_t\sim\pi$ で期待値を取るため省略しているのかと思うのですが,$a_t$ が報酬構造に含まれないような限定した表現は奇妙な気がします.) この影響を受けて,状態価値関数 $V_\pi$,行動価値関数 $Q_\pi$ の定義も変わってます.
・解説(前半)
Advantage 関数から,
\begin{align}
&\mathbb{E}_{\tau|\tilde{\pi}}\left[\sum_{t=0}^\infty \gamma^t A_{\color{red}{\pi}} (s_t,a_t) \right] \\
&= \mathbb{E}_{\tau|\tilde{\pi}}\left[\sum_{t=0}^\infty \gamma^t (r(s_t) + \gamma V_\pi (s_{t+1}) - V_\pi(s_t))\right] \qquad \because A_\pi(s,a)\\
&= \mathbb{E}_{\tau|\tilde{\pi}}\left[ \sum_{t=0}^\infty \gamma^t r(s_t) - V_\pi(s_0) \right]
\quad \because [\color{red}{\gamma V_\pi (s_{1})} - V_\pi(s_0)] - \gamma[\color{blue}{\gamma V_\pi (s_{2})} - \color{red}{V_\pi(s_1)}]...
\\
&= \mathbb{E}_{\tau|\tilde{\pi}} \left[\sum_{t=0}^\infty \gamma^t r(s_t) \right] -\mathbb{E}_{s_0}[V_\pi(s_0)] \qquad \because V_\pi(s_0),\tau|\tilde{\pi}~は独立 \\
&= \eta(\tilde{\pi}) - \eta(\pi)
\end{align}
となります.よって,
\eta(\tilde{\pi}) = \eta(\pi) + \mathbb{E}_{\tau|\color{blue}{\tilde{\pi}}} \left[\sum_{t=0}^\infty \gamma^t A_{\color{red}{\pi}} (s_t,a_t) \right]
です.$\tau$ が状態を要素に持つため,状態が $\color{blue}{\tilde{\pi}}$ に依存します.このままでは本論文 Eq.(2) と同様に $\color{blue}{\tilde{\pi}}$ の処理が面倒です.そこで,
\bar{A}(s) = \mathbb{E}_{a\sim\color{blue}{\tilde{\pi}}(\cdot|s)} \left[A_\pi(s,a) \right]
と advantage 関数の期待値を定義し,代理関数 $L_\pi$ を導入することで対処を試みます.
L_\pi(\tilde{\pi}) = \eta(\pi) + \mathbb{E}_{\tau\sim\pi} \left[ \sum_{t=0}^\infty \gamma^t
\bar{A}(s) \right]
これこそ本論文の Eq.(3) です.
・解説(後半)
準備中...