学習アルゴリズム、行動、観察を変更しながら時間測定してみました。
プログラムはRollerBallを参考につくっていて、こちらに挙げてあります。
環境
- Windows10
- Python 3.7.9
- TensorFlow 2.3.0
- Unity 2019.4.10f1
- ML-Agent Release6
結果
一番上のグラフを表にしたものです。
時間、ステップ数は Mean Reward が 1.000 になるまで計測したものになります。
(1回しか測定していないので、数秒は誤差だと思ってください。)
アルゴリズム | 行動 | 観察 | 時間(s) | ステップ数(k) | 備考 |
---|---|---|---|---|---|
PPO | Continuous | Vector Observation | 68 | 13 | |
SAC | Continuous | Vector Observation | 191 | 121 | |
PPO | Discrete | Vector Observation | 159 | 31 | |
SAC | Continuous | Visual Observation | 1177 | 138 | |
PPO | Discrete | Raycast Observation | 1318 | 236 | ※1 |
※1 学習に時間がかかりすぎたので、途中で止めました