More than 5 years have passed since last update.

強化学習２９　Colaboratory+ChainerRL+Mountain_car

Posted at 2019-12-06

強化学習２８まで終了していることが前提です。
標準DQNでmountain_carを学習しようとするとうまく行きません。
最初はうまく学習できても、途中からおかしくなります。
いろいろといじりまわした結果、reward-scale-factorがややこしくなる原因のようです。
reward-scale-factorは報酬を正規化する係数のようですが、1.0にします。
つまり何もしないということのようですが。。。
途中でaverage_qが反転してしまいますが、ある程度の学習はされます。

ノートブックは、chokozainerRLに入れておきました。
mountaincar_dqn_chokozainer.ipynb
です。
また、Double DQNにも簡単に適用できそうなので、
train_ddqn_gym
も作りました。
Double DQNは、DQNの上位らしいのですが、学習速度は、Double DQNが少し遅いレベルです。
Double DQNはepsilonを0.003にしました。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

強化学習２９ Colaboratory+ChainerRL+Mountain_car

強化学習２９　Colaboratory+ChainerRL+Mountain_car