強化学習28まで終了していることが前提です。
標準DQNでAcrobotを学習しようとするとうまく行きません。
最初はうまく学習できても、途中からおかしくなります。
いろいろといじりまわした結果、reward-scale-factorがややこしくなる原因のようです。
reward-scale-factorは報酬を正規化する係数のようですが、1.0にします。
つまり何もしないということのようですが。。。
ノートブックは、chokozainerRLに入れておきました。
acrobot_dqn_chokozainer.ipynb
です。