ReinforcementLearning
ICLR2018
DeepReinforcementLearning

[論文紹介] ANALYZING THE ROLE OF TEMPORAL DIFFERENCING IN DEEP REINFORCEMENT LEARNING

はじめに

TL;DR

  • テーブル形式の表現あるいは線形な関数近似の場合に得られる理論的あるいは実験的な知見から、temporal difference (TD) は Monte Carlo 法 (MC) より良いと我々は理解している。
  • 本論文では、deep RL における MC の役割を再調査し、MC が TD と遜色ないことを確かめた。
    • noisy reward, sparse reward, delayed reward, また知覚的複雑さが高いといったさまざまな環境で、MC は TD に匹敵あるいは超えることを確認した。
  • 知覚的複雑さのある環境では、環境の有用な表現を獲得することが重要だが、MC は推定値ではなく実測値で訓練することで、それを可能にしているのかもしれない。

実験

アルゴリズム

1. n-step Q-learning

  • rt + λrt+1 + · · · + λn−1rt+n−1 + maxaλnQ(st+n, a) に向かって Q(s, a) を更新。
  • n を変化させて、TD と MC のバランス関係を調査。
    • n = 1 のとき Q-learning、n → ∞ のとき MC
  • A3C を提案した論文 Asynchronous Methods for Deep Reinforcement Learning で紹介されている。

2. QMC

  • n-step Q を finite-horizon に制限したもの。
    • n-step Q とは異なり target値に Q の推定値はなし。
  • horizon は複数。{2, 4, ..., 32} ステップ先までを考慮した Q値をそれぞれ推定。
    • つまり、モデルは一度に 6つの Q値を出力。

3. A3C

  • value function の推定は n-step TD, policy は (通常通り) policy gradient で訓練
  • TD と PG の相互作用を調べられる。

その他

  • A3C はもちろんのこと、その他の手法も非同期で学習した。

実験環境

  • 大きく分けて 3種類
    • (a) grid world での health gathering
    • (b) ViZDoom health gathering supreme: 迷路環境で health kit を集める。
    • (c) (b) のテクスチャを変化させた環境
  • 知覚的複雑さは (a), (b), (c) の順に上がっている。

スクリーンショット 2017-12-05 19.23.32.png

実験結果

既存研究の結果との比較

  • QMC は ViZDoom では良い結果。Atari では悪い。

スクリーンショット 2017-12-05 18.04.50.png

rollout の長さを変化させる

  • rollout の長さは短すぎても長すぎても良くない。
    • 先行する TD(λ) の実験結果 (Sutton, 1988; 1995) と矛盾しない。
    • 長すぎると target value の variance が大きくなるためと考えられる。
  • A3C でも同様の結果。

スクリーンショット 2017-12-05 18.02.33.png

実験環境を変化させる

Reward type

  • noisy reward を導入。
    • binary reward (health kit を収集した時に +1) ではなく、health の変化に応じた報酬 (r = ∆h/30)
  • TD-based な手法は noisy reward での結果が良くない (Figure 3 左)

スクリーンショット 2017-12-05 18.21.53.png

Terminal states

  • TD-based な手法の方が結果が良い (Figure 2)
  • This is due to the finite-horizon nature of QMC. A terminal reward only contributes to a single update per episode, while in TD it contributes to every update in the episode.

スクリーンショット 2017-12-05 19.04.23.png

Delayed rewards

  • {2, 4, ..., 32} ステップ分 報酬を遅延させる。
  • QMC は一貫して他の手法よりパフォーマンスが良い (Figure 3 中央)
    • パフォーマンス低下の程度もそれほど高くはない。

Sparse rewards

  • QMC は 20-step Q と同程度 (Figure 3 右)
    • TD-based infinite horizon な手法は、遠い将来の報酬を考慮するのに効果的なはずだが、結果は予想に反する。
    • MC は知覚システムを訓練するのに適しているからではないか。

Perceptual complexity

  • 知覚的な難易度を変えた環境を用意。
    • Grid Vec.: Figure 1 (a) の環境で、agent + 4 health kits の (x, y) 座標を 10次元ベクトルとして入力。
    • Grid Map: (a) の環境を 8x8 のマップとして入力。
    • Basic: 普通の ViZDoom health gathering (b)
    • Multi-texture: health gathering の模様をランダムに 90 通りに 1エピソードごとに変化させる (Figure 1 (c))。
  • ViZDoom の multi-texture 環境では、QMC が他の手法よりも良い。
    • 20-step Q に対しては若干よいという程度。

スクリーンショット 2017-12-05 19.18.47.png

  • さらに、知覚に関する効果をより詳細に分析。
    • いったん訓練した後に、ネットワークの上位2層のみを再初期化して実験。
  • 最初の訓練が QMC の方が結果が良い (Table 3)
    • → MC による訓練が、画像で知覚システムを訓練するには効率的という仮説を支持。

スクリーンショット 2017-12-05 19.40.32.png

考察

  • 知覚的に比較的単純な環境 (gridworld, Atari) では、TD-based な手法 (e.g. n-step Q learning) は QMC より良い。
    • この点は、過去の知見と矛盾しない。
  • しかし、知覚的に複雑な環境では、QMC の方が良い。
    • 遠い将来を考慮できないにもかかわらず成績が良かったのは特筆。
  • 知覚的複雑さが高い環境では、状態の有用な表現を獲得することが必要。
    • MC は推定値を介さずに "ground truth" で訓練することが効いているのではないか。

まとめ

  • TD-based な手法が RL では支配的であったが、MC も TD と遜色ない。
  • TD は、知覚的に単純な場合、長期的なプランニング、エピソード終了時に報酬が発生する場合に強み。
  • MC は、noisy reward, raw sensory input, delayed reward, sparse reward に強み。
  • 両者のこれらの強みをどう組み合わせていくかが重要な課題。

所感

  • 以下、個人の所感のため、間違っている可能性がおおいにあります。
  • おそらく DFP論文の著者が書いた DFP論文の続報なのではないか。
  • DFP は ViZDoom に特化した (measurements が得られる環境での) モデルだと思っていた。
    • その点、既存の DRL 研究からは少し逸れた "亜流な" 感じの研究だと個人的には思っていた。
    • しかし、Visual Doom AI Competition 2016 の Full Deathmatch では、圧倒的な強さを見せていた (結果はこちら, IntelAct チーム)
  • しかし、その "亜流な" アイディアを Deep Q-learning & MC の形で再解釈し、それを TD と MC の比較と位置付けることで、既存の DRL 研究への接続を示したように個人的には受け取った。
  • DRL の知覚のベターな訓練という意味では、大雑把に言えば、DeepMind の UNREAL や auxiliary task にも通じるのかもしれないと感じ、積ん読しているこれらの論文を読む機運が高まった。