0
1

More than 3 years have passed since last update.

強化学習11 OpenAI acrobotをChainerRLでやってみる。

Posted at

強化学習10まで達成していることが前提になります。
openai acrobotでググると、Acrobot-v1が出てきます。
v1とかv0がよくわからないので、魔改造前の調査をします。
userfolder/anaconda3/envs/chainer/lib/python3.7/site-packages/gym
をVSCodeで開きます。
CartPoleで全検索をすると、CartPole-v0とCartPole-v1がありました。
むむ?
acrobotでは、Acrobot-v1だけです。
先に作ったCartPoleで、CartPole-v0をCartPole-v1に代えて実行してみました。
難易度が上がっているようです。

そのまま入れ替えてやってみましたが、なんか違う。。。。
Acrobotは振り子運動で、ある高さまで持っていくことで成功報酬が得られます。
未来における価値をあまり割り引かない設定にしてみます。
gammaを0.99にしたところ、うまく行っているように思えます。

DQN(Deep Q Network)を使用しています。
その説明は、たくさん紹介されているので、ググるといいでしょう。

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1