Sim-to-Real: Learning Agile Locomotion For Quadruped Robots について
url : https://arxiv.org/abs/1804.10332
2018,Google Brain,X,Google DeepMind
どんなもの?
強化学習のロボティクス分野への応用として,制御プログラムの作成を自動化したいというものがある.
これは多くの場合,シミュレーション環境で方策を学習し,現実のロボットに方策を転移するという方法をとる.
現状この分野には,理想と現実のギャップ(reality gap)によりシミュレーション環境で学習された方策は現実世界ではうまく動作しないという問題がある.
このreality gapを狭めるための研究
先行研究と比べて何がすごい?
シミュレーション方策を現実のロボットに転移する際,手動によるチューニングや,現実世界での追加トレーニングなしで適用でき,エネルギー効率の良い歩行動作の獲得にも成功した.
技術の手法や肝は?
以下のような方法でロバストな学習を実現した
- 物理パラメータのランダム化
- ランダムな摂動の追加
- コンパクトなobservation space
どうやって有効だと判断した
実際にbaselineの手法と提案手法でシミュレーション方策を現実のロボットに転移し,得られる期待報酬で比較.
議論はある?
この論文の焦点は,現実世界に転移可能な移動方策の獲得にある.そのため,単純な報酬関数,単純な環境(平らな地面)を使用した.現実的なシナリオとしては,ロボットは環境を見て,速度や方向を変化させる必要がある.なので,速度と方向を動的に変更できる方策,視覚情報の追加など拡張していくと良さそうである.