Neural SLAM
エージェントが新しい環境を探索するにあたって有用となる、センサーデータからglobal mapの
表現獲得手法を提案する。
この手法を得るために、従来のSLAMを模擬し、soft attention basedで利用されるexternal memory構造を
新たに提案する。
このexternal memoryは環境内部の表現として用いられる。
これにより、完全微分可能なdeepnetがSLAMと似たような発展を見せるようになる。
この構造の利用でエージェントは新たな環境に対する強化学習的な探索が可能になる。
Hindsight Experience Replay
強化学習においてsparseなrewardに対する効率的な学習の実現は大きな課題の一つである。
この問題に対して本論ではHindsight Experience Replayと呼ばれる、sample efficientな手法を提案する。
この手法は任意のoff-policy手法へ適用可能で、implicit curriculum学習手法として見る事が出来る。
ここでは本来のゴールへ到達せずrewardが得られないパスが与えられたとしても、その最終状態がゴール
だと考えた時にそこへ到達するためのパスだと考える事ができ、学習への活用が可能になる。
この考え方はmulti-goal RLと関連している。
Unsupervised Learning of Depth and Ego-Motion from Video, CVPR2017
モノラルカメラのVideo sequenceより教師なしの深さ、モーション推定を行うための手法を提案する。
この手法はあるポーズとその画像から、近くのポーズとその画像への遷移を深さとポーズ推定の結果から
行うタスクを設定する事で学習する。
この学習は教師なしで行う事が可能である。