Edit requests of 失敗からも学ぶ 強化学習 HERのアルゴリズムを理解して、OpenAI Gymの新しいロボットで試してみた
@Tcom
2018-07-14
Accepted
比較的新しい論文の紹介ありがとうございます。 とても参考になります。 少し気になった点ですが、 DDPGはon policy(オンポリシー) だと思うのですがどうでしょうか? ちなみにDDPG(Deep Deterministic Policy Gradient)ですよね? であれば、DDPGはpolicyを修正していく手法ですので、on policyだと思います。 (なにか勘違いしていたら、すいません) 細かい点ですが、初学者が混乱しないために ご検討よろしくお願いいたします。
Please check the preview of this article
We released Markdown parser changes on February 24, 2022. There may be some unexpected appearance changes in this update, because this article was posted before the changes.
Please don't forget to check the preview before updating your article.
For more information on the changes, please read this article.