Revisions of "失敗からも学ぶ 強化学習 HERのアルゴリズ..."

  1. 失敗からも学ぶ 強化学習 HERのアルゴリズ...
  2. Revisions
  1. Tcom

    比較的新しい論文の紹介ありがとうございます。 とても参考になります。 少し気になった点ですが、 DDPGはon policy(オンポリシー) だと思うのですがどうでしょうか? ちなみにDDPG(Deep Deterministic Policy Gradient)ですよね? であれば、DDPGはpolicyを修正していく手法ですので、on policyだと思います。 (なにか勘違いしていたら、すいません) 細かい点ですが、初学者が混乱しないために ご検討よろしくお願いいたします。

    Tcom 2018-07-14 11:56 PM JST
  2. SUZUKI_Masaya

    誤字を修正

    SUZUKI_Masaya 2018-07-14 08:25 AM JST
  3. ishizakiiii

    No comment

    ishizakiiii 2018-03-02 02:28 PM JST
  4. ishizakiiii

    No comment

    ishizakiiii 2018-03-02 05:23 AM JST
  5. ishizakiiii

    No comment

    ishizakiiii 2018-03-01 11:07 PM JST
  6. ishizakiiii

    No comment

    ishizakiiii 2018-03-01 10:45 PM JST
  7. ishizakiiii

    No comment

    ishizakiiii 2018-03-01 10:44 PM JST
  8. ishizakiiii

    No comment

    ishizakiiii 2018-03-01 10:40 PM JST
  9. ishizakiiii

    No comment

    ishizakiiii 2018-03-01 10:39 PM JST
  10. ishizakiiii

    No comment

    ishizakiiii 2018-03-01 10:29 PM JST
  11. ishizakiiii

    No comment

    ishizakiiii 2018-03-01 10:29 PM JST
  12. ishizakiiii

    No comment

    ishizakiiii 2018-03-01 10:27 PM JST
  13. ishizakiiii

    Posted

    ishizakiiii 2018-03-01 10:25 PM JST
How developers code is here.
Qiita
AboutTermsPrivacyGuidelineRelease
APIご意見HelpAdvertisement
Increments
About採用情報Blog
Qiita TeamQiita JobsQiita Zine
© 2011-2021 Increments Inc.