強化学習28まで終了していることが前提です。
標準DQNでmountain_carを学習しようとするとうまく行きません。
最初はうまく学習できても、途中からおかしくなります。
いろいろといじりまわした結果、reward-scale-factorがややこしくなる原因のようです。
reward-scale-factorは報酬を正規化する係数のようですが、1.0にします。
つまり何もしないということのようですが。。。
途中でaverage_qが反転してしまいますが、ある程度の学習はされます。
ノートブックは、chokozainerRLに入れておきました。
mountaincar_dqn_chokozainer.ipynb
です。
また、Double DQNにも簡単に適用できそうなので、
train_ddqn_gym
も作りました。
Double DQNは、DQNの上位らしいのですが、学習速度は、Double DQNが少し遅いレベルです。
Double DQNはepsilonを0.003にしました。