0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

Unity ML-Agents でアルゴリズム、行動、観察を変えて学習時間を比較してみた

Last updated at Posted at 2020-09-23

bandicam 2020-09-23 20-54-03-158.jpg

学習アルゴリズム、行動、観察を変更しながら時間測定してみました。
プログラムはRollerBallを参考につくっていて、こちらに挙げてあります。

環境

  • Windows10
  • Python 3.7.9
  • TensorFlow 2.3.0
  • Unity 2019.4.10f1
  • ML-Agent Release6

結果

一番上のグラフを表にしたものです。
時間、ステップ数は Mean Reward が 1.000 になるまで計測したものになります。
(1回しか測定していないので、数秒は誤差だと思ってください。)

アルゴリズム 行動 観察 時間(s) ステップ数(k) 備考
PPO Continuous Vector Observation 68 13
SAC Continuous Vector Observation 191 121
PPO Discrete Vector Observation 159 31
SAC Continuous Visual Observation 1177 138
PPO Discrete Raycast Observation 1318 236 ※1

※1 学習に時間がかかりすぎたので、途中で止めました

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?