0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

強化学習13 Mountain_carをChainerRLでやってみる。

Last updated at Posted at 2019-11-18

強化学習12まで達成していることが前提になります。
Ubuntu18.04の方でやっていきます。
先に作ったCartPoleで、CartPole-v0をMountainCar-v0に代えて実行してみました。
難易度が上がっているようです。

そのまま入れ替えてやってみましたが、なんか違う。。。。
gammaを0.99にしていますが。

サイトを見て回ると、学習量が多い。
多くするのが、コツなのだろうか?
以下のように設定しました。

chainerrl.experiments.train_agent_with_evaluation(
    agent, env,
    steps=1000000,           # Train the agent for 2000 steps
    eval_n_steps=None,       # 10 episodes are sampled for each evaluation
    eval_n_episodes=1,       # 10 episodes are sampled for each evaluation
    eval_max_episode_len=200,  # Maximum length of each episodes
    eval_interval=100,   # Evaluate the agent after every 1000 steps
    outdir='result')      # Save everything to 'result' directory
print('Finished.')

epsilon=0.003にしました。

それなりに学習時間はかかりましたが、登れています。

2000回学習の曲線がこちら。
mountaincar_20191118124725.png

10000回学習の曲線がこちら。
mountaincar_20191119123112.png

10000回だと、85分かかってしまいます。使っていないパソコンならいいのだけれど。
モバイルで普段使っているパソコンだとどうするべきか。

30回目くらいを目標にGPUを始めようと思っています。
その準備というか調査をしているのですが、Chainerはプログラム量が極端に少ない。HDD上で8Mbくらい。tensorflowは大きくて300Mb以上。GPUとして、Radeonを使いたいのだが、chainerは動くかなあ。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?