Edit requests of 失敗からも学ぶ強化学習 HERのアルゴリズムを理解して、OpenAI Gymの新しいロボットで試してみた

@Tcom

2018-07-14

Accepted

比較的新しい論文の紹介ありがとうございます。とても参考になります。少し気になった点ですが、 DDPGはon policy(オンポリシー) だと思うのですがどうでしょうか？ちなみにDDPG(Deep Deterministic Policy Gradient)ですよね？であれば、DDPGはpolicyを修正していく手法ですので、on policyだと思います。 (なにか勘違いしていたら、すいません) 細かい点ですが、初学者が混乱しないためにご検討よろしくお願いいたします。

@SUZUKI_Masaya

2018-07-13

Accepted

誤字を修正

Create a new edit request

Please check the preview of this article

We released Markdown parser changes on February 24, 2022. There may be some unexpected appearance changes in this update, because this article was posted before the changes.
Please don't forget to check the preview before updating your article.
For more information on the changes, please read this article.

Edit requests of 失敗からも学ぶ 強化学習 HERのアルゴリズムを理解して、OpenAI Gymの新しいロボットで試してみた

Edit requests of 失敗からも学ぶ強化学習 HERのアルゴリズムを理解して、OpenAI Gymの新しいロボットで試してみた