More than 5 years have passed since last update.

強化学習１３　Mountain_carをChainerRLでやってみる。

Last updated at 2019-11-19Posted at 2019-11-18

強化学習１２まで達成していることが前提になります。
Ubuntu18.04の方でやっていきます。
先に作ったCartPoleで、CartPole-v0をMountainCar-v0に代えて実行してみました。
難易度が上がっているようです。

そのまま入れ替えてやってみましたが、なんか違う。。。。
gammaを0.99にしていますが。

サイトを見て回ると、学習量が多い。
多くするのが、コツなのだろうか？
以下のように設定しました。

chainerrl.experiments.train_agent_with_evaluation(
    agent, env,
    steps=1000000,           # Train the agent for 2000 steps
    eval_n_steps=None,       # 10 episodes are sampled for each evaluation
    eval_n_episodes=1,       # 10 episodes are sampled for each evaluation
    eval_max_episode_len=200,  # Maximum length of each episodes
    eval_interval=100,   # Evaluate the agent after every 1000 steps
    outdir='result')      # Save everything to 'result' directory
print('Finished.')

epsilon=0.003にしました。

それなりに学習時間はかかりましたが、登れています。

2000回学習の曲線がこちら。

10000回学習の曲線がこちら。

10000回だと、85分かかってしまいます。使っていないパソコンならいいのだけれど。
モバイルで普段使っているパソコンだとどうするべきか。

30回目くらいを目標にGPUを始めようと思っています。
その準備というか調査をしているのですが、Chainerはプログラム量が極端に少ない。HDD上で８Mｂくらい。tensorflowは大きくて300Mb以上。GPUとして、Radeonを使いたいのだが、chainerは動くかなあ。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

強化学習１３ Mountain_carをChainerRLでやってみる。

強化学習１３　Mountain_carをChainerRLでやってみる。