強化学習10まで達成していることが前提になります。
openai acrobotでググると、Acrobot-v1が出てきます。
v1とかv0がよくわからないので、魔改造前の調査をします。
userfolder/anaconda3/envs/chainer/lib/python3.7/site-packages/gym
をVSCodeで開きます。
CartPoleで全検索をすると、CartPole-v0とCartPole-v1がありました。
むむ?
acrobotでは、Acrobot-v1だけです。
先に作ったCartPoleで、CartPole-v0をCartPole-v1に代えて実行してみました。
難易度が上がっているようです。
そのまま入れ替えてやってみましたが、なんか違う。。。。
Acrobotは振り子運動で、ある高さまで持っていくことで成功報酬が得られます。
未来における価値をあまり割り引かない設定にしてみます。
gammaを0.99にしたところ、うまく行っているように思えます。
DQN(Deep Q Network)を使用しています。
その説明は、たくさん紹介されているので、ググるといいでしょう。