比較的新しい論文の紹介ありがとうございます。 とても参考になります。 少し気になった点ですが、 DDPGはon policy(オンポリシー) だと思うのですがどうでしょうか? ちなみにDDPG(Deep Deterministic Policy Gradient)ですよね? であれば、DDPGはpolicyを修正していく手法ですので、on policyだと思います。 (なにか勘違いしていたら、すいません) 細かい点ですが、初学者が混乱しないために ご検討よろしくお願いいたします。
誤字を修正
No comment
Posted