More than 3 years have passed since last update.

Unity ML-Agents でアルゴリズム、行動、観察を変えて学習時間を比較してみた

Last updated at 2020-10-10Posted at 2020-09-23

学習アルゴリズム、行動、観察を変更しながら時間測定してみました。
プログラムはRollerBallを参考につくっていて、こちらに挙げてあります。

環境

一番上のグラフを表にしたものです。
時間、ステップ数は Mean Reward が 1.000 になるまで計測したものになります。
（1回しか測定していないので、数秒は誤差だと思ってください。）

アルゴリズム	行動	観察	時間(s)	ステップ数(k)	備考
PPO	Continuous	Vector Observation	68	13
SAC	Continuous	Vector Observation	191	121
PPO	Discrete	Vector Observation	159	31
SAC	Continuous	Visual Observation	1177	138
PPO	Discrete	Raycast Observation	1318	236	※1

※1 学習に時間がかかりすぎたので、途中で止めました