Releasing PPO, a new class of reinforcement learning algorithms that excel at simulated robotics tasks: https://t.co/MsGrJDCfxK pic.twitter.com/MC8rL3lB0c
— OpenAI (@OpenAI) 2017年7月20日
概要
- 環境とのやり取りによるデータの取得と、「代理」目的関数の最適化を交互に繰り返す、方策勾配法ベースの手法を提案する
- 提案法は PPO と名付けた。TRPO のいいところを受け継ぎつつ、実装は容易で、より一般的で、(実験的に)サンプル効率が良い
- PPO はロボット制御のシミュレーションでも、Atari でも従来手法よりも良い結果を出すことができた
導入
- 深層強化学習では、DQN/(生の) 方策勾配法/TRPO/自然方策勾配法 が先行しているが、大きなモデルや並列実装に対してスケールしたり、データ効率が良かったり、ロバスト (=ハイパーパラメータ調整なしで色々な問題が解ける) な手法を開発する余地がある
- (関数近似の) Q学習は連続状態に弱かったり理論解析が進んでいない
- 生の方策勾配法はデータ効率性とロバスト性が悪い
- TRPO は複雑でドロップアウトやパラメータ共有といったアーキテクチャに対応できない
- 比をクリッピングすることで、方策を悲観的に評価するような新しい目的関数を作り、TRPO を改善した新しい手法を提案する
- 方策の最適化は、方策からのデータサンプリングと数エポックぶんの最適化を繰り返すことでおこなう
- 提案法 (以後 PPO と呼ぶ) は連続制御タスクの性能もAtariの性能も良かった
背景:方策最適化
方策勾配法
という勾配に従って勾配法をおこなう。ただし、
- $\pi_\theta$ は確率的方策
- $\hat{A_t}$ は時刻tでのアドバンテージの推定量
- $\hat{\mathbb{E}}_t$ は期待値のサンプル平均近似
自動微分のために目的関数を陽に定めたいなら次を用いれば良い:
Trust Region Methods
TRPO では、目的関数 (「代理 (surrogate)」目的関数) は更新量に制約がかかっている:
これは、目的関数に線形の近似を、制約に2次の近似を置くと、共役勾配法で効率的に解くことができる。
TRPO を正当化する理論は、実際には制約ではなく正則化による方法を提示する:
上式の目的関数,は、KLダイバージェンスの期待値ではなく最大値を取るため、方策 $\pi$ の悲観的評価 (下限) をなしている。1
Clipped Surrogate Objective
"CPI" は "conservative policy iteration" (保守的方策反復) のこと。
これだけだと更新量が大きくなりすぎるので、 $r_t(\theta)$ に制約をかける。
提案法 PPO の主な目的関数は次式:
$\epsilon = 0.2$ はハイパーパラメータ。
(7) 式の min は悲観的評価を表している。
適応的 KL 罰則係数 (Adaptive KL Penalty Coefficient)
$L^{\text{CLIP}}$ の代わりに、もしくはそれに加えて、次のような手法も考えた2 (が、CLIP のほうが精度が良かった):
1.5 とか 2 みたいな数字はヒューリスティックに決めた。
アルゴリズム
分散を軽減するために $L_t^{\text{VF}} = (V_\theta(s_t) - V_t^{\text{targ}})^2$ を3、
探索を促すためにエントロピー4 $S[\pi_\theta](s_t)$ を導入して、
次の式を最大化する:
さらにアドバンテージ関数は T ステップ分を考える:
さらにさらに、(10)式は次のように一般化できる ($\lambda=1$ で一致する):
PPO では、N 個の actor を並列に T ステップ走らせてデータを集めて勾配法を実行している。
実験
代理目的関数の比較
比較する各手法でそれぞれハイパーパラメータを探したため、実験対象の環境は軽いものを利用した。
つまり、OpenAI Gym の MuJoCo を利用した7種類のロボット制御タスク。
各ハイパーパラメータはそれぞれ100万タイムステップぶんの更新をおこなっている。
各タスクのスコアは、ランダム方策によるスコアが0で最高スコアが1になるように調整している。
方策の近似は、64ユニットの全結合層を2層積み、tanh 活性化でガウス分布の平均と標準偏差を出力するようなニューラルネットを用いた。5
方策と価値のネットワークのパラメータは共有せず、エントロピー項は利用していない。
連続制御タスクを扱える他の手法との比較
PPO はさっきの実験で一番良かったハイパーパラメータを利用した。6
ヒューマノイドの走行と操舵
PPO が高次元の連続制御タスクにも強いことを示すために、ヒューマノイドに石を投げつけながら、走行・操舵・起き上がりを学習させた。
動画は 公式 にある。石をたくさん投げつけられてかわいそう。
Atari での比較
PPO は、離散行動である Atari でも良い結果が得られている。
参考資料
- Proximal Policy Optimization
- [1707.06347] Proximal Policy Optimization Algorithms
- 【強化学習】実装しながら学ぶPPO【CartPoleで棒立て:1ファイルで完結】 - Qiita
-
ここらへんが言っていることは、たぶん「期待値よりも最大値のほうが大きいのだから、最大値で評価する式のほうが下限が落ちるはずだ。つまり悲観的評価だ」くらいの意味だと思うが、ちょっと自信がない ↩
-
目的関数に KL が追加されて、その係数が $\beta$ であるが、それがアルゴリズムの第2ステップで適応的に修正されていく。だから「適応的 KL 罰則係数」と言っている ↩
-
$V_t^{\text{targ}}$ はDQNとかで使われている target value、つまりちょっと前のパラメータによる推定値のことだろうか? ↩
-
方策に関するエントロピーの意だと思われる ↩
-
TRPO の論文と同じようにやっているらしい。つまり、最終的に出力したいベクトルと同じ次元の平均と標準偏差を出力する (つまり次元数は2倍となる) ようなネットワークを作り、その平均と標準偏差のガウシアンから値をサンプリングするということだと思われる。が、TRPO をちゃんと読んでいないので自信がない ↩
-
さらっと「A2C が A3C より同じかまたは良かった」とか書いてあって、強化学習がいよいよもって何もわからん ↩