0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

強化学習40 Colaboratory+Atari+chainerRL GPGPU小まとめ

Last updated at Posted at 2019-12-21

中学生から大学生のAI初学者を対象にしています。

今回の結論は、PPOです。

 OpenAIのAtariを用いての強化学習(深層強化学習)では、PPOが一番です。
強化学習を行うときの入力データであるobservationで、画像出力を用いるのが流行りのようです。細かい設定無しで、ディスプレイに映し出される画面のデータです。
 これを用いると、手書き文字などの認識と同じような畳み込みニューラルネットワークの出番になります。すると、GPGPUを使うことになります。

 どこが面倒かというと、GPGPUの部分です。その中で、最強なのがPPOです。とにかく速い。ステップの処理も速いし、学習も速い。
Breakout2時間位(5519秒)で、こんな感じです。

steps   episodes  elapsed mean median stdev  max  min
2000000 16394     5519    36.8 33.5   18.41  61.0 2.0

同じstep数2000000を実行するならば、
PPO       5519秒(92分)
DQN      19200秒(320分)
DQN-batch   6900秒(115分)
DRQN      8900秒(148分)
categorical  12855秒(214分)
となります。
90分ルールがある以上は、PPOがいいのは一目瞭然です。

PPOはOpenAIのデフォルト手法になっているそうです。
こちらに詳しく書いてあります。
https://shiropen.com/2017/07/21/26889/

chokozainerrlに、aleシリーズは、それぞれ入れておきました。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?