模倣学習やってみたです。コードはこちら。
模倣学習とは?
人が操作した内容を基に学習することで、難しい内容でも学習を早く進められるというものです。
やったこと
エージェントが反時計回りにぐるぐるまわれるようにすることです。

模倣内容は?
自分自身の操作で、反時計回りに5周ほど回してあげたものをデモとしています。
結果
水色:模倣あり
青色:模倣なし
学習グラフ
模倣ありは効率的
Extrinsic も Curiosity も、両方とも模倣ありのほうが早く良い報酬が得られるようになっていることがわかります。


