Sim-to-Real Robot Learning from Pixels with Progressive Nets
pixelレベルの入力からendtoendでタスクを行う制御出力を行う問題は解くのが難しい。
そのための手法の1つとしてはdeep reinforcement learningに基づく手法があるが、基本的にbrute force探索のため現実世界での試行では効率が悪い。
しかしシミュレーション環境においてはコストが低いため一定の効果を期待できる。
本論ではシミュレーション環境で学習されたモデルに関して現実世界とのギャップを埋めるような手法としてprogressive networkを提案する。
Progressive networkそのものは、低レベルから高レベルまでの特徴を転移させて再利用するための一般的なフレームワークである。
この利用により、実世界でのタスクをモデルベース手法に頼らず、deep reinforcement learningの手法により学習する事に成功した。
SHIV: Reducing Supervisor Burden in DAgger using Support Vectors for Efficient Learning from Demonstrations in High Dimensional State Spaces, ICRA2016
システム特性やコスト関数が不明な場合における、デモンストレーションに基づいたオンライン学習手法を考える。
DAggerのような従来手法においては、agentが新しい状態になるたびにクエリを行うため、そのコストは大きくなる。
そのコストを軽減する策として、得ているデータ分布から有意な差がないクエリサンプルを棄却する手法がある。
本論ではそれをSVMベースに行い、データ分布のlevel set estimationを行い、その境界をサポートベクターを用いて表現する。
表現された境界からの距離を用いる事でクエリサンプルに対するリスクを計算可能にする。
以上の手法により必要なクエリを減らす事に成功した。
PLATO: Policy Learning using Adaptive Trajectory Optimization
画像などの複雑な入力に対して複雑なpolicyを学習する事は難しい。
本論で提案する手法のPLATOは、model-predictive control(MPC)によって生成された教師情報を用いて学習を行う。
これにより、学習途中のモデルによって行動を行う必要がなくなる。
PLATOはMPCの挙動を変化させて少しずつ学習しているモデルのpolicyへ一致させる事で、モデルの状態に対応した訓練サンプルを生成可能にする。
またMPCに基づくコスト関数を追加し、望ましくない行動を回避するようにできる。