目次(投稿一覧)
- DeepRacerのはじめかた(1)概要と目次
- DeepRacerのはじめかた(2)サービスの利用開始と参考費用
- DeepRacerのはじめかた(3)最初のエンジンを作成
- DeepRacerのはじめかた(4)Evaluation(作成したエンジンを評価)
- DeepRacerのはじめかた(5)ログの場所
- DeepRacerのはじめかた(6)モデルのダウンロード方法
- DeepRacerのはじめかた(7)Virtual Circuit
- DeepRacerのはじめかた(8)参考情報 モデルのトレーニングと評価 ← 表示中
本資料は私が主催する AI・データ解析 もくもく会 の参加者(初心者)向け資料です。
AWS・強化学習にはじめて取り組まれる方向けの、参考情報となっています。
ご注意
私はデータサイエンティストおよびAWSのプロではありません
不備等も多々あると思いますが、ご容赦下さい。
また、記載事項を参考にされる場合は、自己責任でお願いいたします!!
もくもく会に参加される方へ
強化学習や関連テーマへの取り組みは大変だと思いますので、一緒に勉強するメンバーを募集されることを強く推奨します。
個人戦の気配がしているので。。。
一応、お願いしておきます。。。
公式ドキュメント へのリンク
AWS DeepRacer 開発者ガイド
AWS DeepRacer モデルのトレーニングと評価
Input Parameters of the AWS DeepRacer Reward Function
ロボットの動作を定義する
Action space
ロボットがシミュレータと物理的な世界の両方で実行できる具体的なアクションを定義します。
トレーニング終了後、モデルを clone してトレーニングを続けることはできますが、Action spaceのパラメータをその際に変更することはできませんので、注意してください。
1周できるモデルを作成したい方向けに、完走しやすい/しにくいを記載しています。
学習の方針や、組み合わせ方によって結果は変わりますので、どちらが良いかは一概には決まりません。
-
項目:Maximum steering angle
- 機能:アクション(舵角/ハンドルを切る角度 の最大)を定義、単位は度
- 大きいと、コーナーを曲がりやすいが、走行ラインがふらつく(完走しやすい)
- 小さいと、コーナーを曲がりにくいが、走行ラインが安定する(完走しにくい)
- 機能:アクション(舵角/ハンドルを切る角度 の最大)を定義、単位は度
-
項目:Steering angle granularity
- 機能:アクション(舵角/ハンドルを切る角度 の粒度)を定義
- 大きいと、舵角/ハンドルを切る角度を丁寧に調整するモデルができる可能性がある(完走しやすい)
- 小さいと、舵角/ハンドルを切る角度を素早く調整するモデルができる可能性がある(完走しにくい)
- 機能:アクション(舵角/ハンドルを切る角度 の粒度)を定義
-
項目:Maximum speed
- 機能:アクション(最大速度)を定義、単位はm/s
- 大きいと、完走できた際のタイムが早くなるが、コーナーを曲がりにくい(完走しにくい)
- 小さいと、完走できた際のタイムが遅くなるが、コーナーを曲がりやすい(完走しやすい)
- 世界最速を狙うなら 5 しかない、4ではあんなタイムは出せない
- 機能:アクション(最大速度)を定義、単位はm/s
-
項目:Speed granularity
- 機能:アクション(速度 の粒度)を定義
- 大きいと、速度を丁寧に調節するモデルができる可能性がある(完走しやすい)
- 小さいと、速度を素早く調節するモデルができる可能性がある(完走しにくい)
- 機能:アクション(速度 の粒度)を定義
Action list
ロボットが選択するActionのリスト。
Action numberが選ばれ、ロボットはその動作をします。
Action spaceの設定から、Action listは自動的に決まります。
モデルのトレーニング
Reward function
ロボットがコースを早く走行できるAction numberを選び続けられれば、タイムが上がるはずです。
DeepRacerでモデルをトレーニングするのに使う強化学習では、与えられた「環境」における「報酬」(価値・利益)を最大化するように学習させますが、Reward functionは**「報酬」を定義するためのものです。
当然、「報酬」**は目的に沿う(=コースを少ないタイムで走る、理想的なラインを通る)よう、強化学習の過程において増加するように設計する必要があります。
-
Reward function の機能
- ロボットがトラック上の現在位置から新しい位置へ移動するための行動をとるときの即時の報酬(または 罰・ペナルティ)を記述
-
記述する方法
- Code editor 領域に Python プログラムで記載します。
- 公式ドキュメントに、利用可能なパラメータの詳細や、Pythonプログラムのサンプルが多数あります。
- Input Parameters of the AWS DeepRacer Reward Function
Hyperparameters
トレーニングのパフォーマンスを調整するための、ハイパーパラメーターを指定します。
ハイパーパラメーターの概要については公式ドキュメントに記載があります。
最適なトレーニングパフォーマンスのためにハイパーパラメータを体系的に調整する
Stop conditions
トレーニングを中止するための条件を設定します。
設定時間が経過すると自動的に学習は停止します(STOP処理が自動的に開始され、請求も止まる)。
トレーニング中、手動でStopすることも可能です。
また、トレーニング後にモデルをCloneし、パラメータを調整してトレーニングを継続することもできます。
参考情報
私の感想的なものですので、正しいかはわかりません。
参考にされる方は自己責任でお願いします。
私の現状(2019/05/19時点)
2019/05/24 少しだけ改善(ハイパーパラメータの調整)
Action listをどう決める?(2019/05/19時点)
- 私のコースを早く走るロボットのイメージ:
- コーナーはスピードを落とさずに、適切な舵角を維持しながら曲がる
- ストレートは加速するために、舵角を細かく修正して真っすぐ走る
悩ましい点は、(当たり前ですが)トレーニングを開始すると変更がきかない所。
注意:以下、項目の順番を変えてます
-
Maximum speed
- タイムを上げたいなら 5!!
-
Maximum steering angle
-
Steering angle granularity / Speed granularity
- 細かく設定すると、向かっていって欲しい方向にトレーニングが進まないこともあり難しい。完走率100%でもタイムが遅いと困る。
- 理論上は動作の選択肢が多ければ、効率的な動きをするモデルが最終的にはできると思う、私の財布には厳しいかも。。。
Reward functionをどう決める?(2019/05/19時点)
概要
-
センターライン上をゆっくり走るようにトレーニングすれば間違いなく完走しますが、そこまでしなくても、結構、何とかなります
-
1モデル(何度かcloneした)で試しただけですが、細かく制御できればと考えたモデルは上手くできなかった
-
全体的にはRewardが増えるようにする方向(罰だけにしない)で作成、トレーニング中の傾向をグラフでも見やすいので良いかなと考えています
-
all_wheels_on_track
- 最初はこれが必須だと考え重視していましたが、タイムを縮めるトレーニングの際にはコメントアウトしています
- 4輪が全てトラックに乗っていなくてもコースアウト判定にならないようなので、走行ラインの選択肢が増えるため。
-
progress
- まずは早く周回させたいので、最初のトレーニングでは圧倒的に高い割合になるようにしています
- 理論上は違うアプローチや、繰り返しのトレーニングで何とかなるはずですが、私の財布(略)
-
speed / steering_angle
- Action listの項目を変更することはできないので注意
Hyperparametersをどう決める?(2019/05/19時点)
- デフォルト設定でも、London Loopで13秒台のモデルは作成できています。
- 今の用途としては「良いモデルが出来た後、モデルが壊れないようにしたいが、ここだけ改善したい」というような時に変えてみています
-
変更して失敗が多いです、難しい
- Gradient descent batch sizeを大きくするとclone後数分でcrash(詳細調査中、メモリ不足?)が起きたことがある、起きる
- 予算(お小遣い)の制約もあるので、「ハイパーパラメーターを繰返し試して、最適解が見つかる確率」と「完走できれば早いモデルで何度かsubmit modelに挑戦し奇跡が起きる確率」どっちが高いんだろ?と思ったりも。
Stop conditionsをどう決める?(2019/05/19時点)
トレーニングを止めるタイミング
- 理想的なタイミングは一番良いモデルができた瞬間だと思います
- 2周できたらStopしてチェックなど、やり方は色々とあるのでしょうが、常に見ているわけにもいきません
- 何個も同じモデルで同一条件で複数作成したり、トレーニングの時間を変えて試すのは、やりたいのですが費用がかかります
- そこで。ベースのモデルを最初に作成する際は、60分学習==>Clone==>60分学習==>繰り返し のようにして様子を見ながら試しています
トレーニング(中・後)の評価
-
Reward graphの推移を見る
- Reward functionの設計によります※が、増えるはずのRewardがまったく増えないのは失敗かも
- 予算が少なければStopすべきか悩むタイミングも多いので、事前にどのようになればStopするか決めておくと良いです
-
Reward graphはリロード時、最初の1時間分しか表示していませんので注意
- 駄目だと消したモデルが、CloudWatchのログ見たら後半凄く良さそうだったんですよね。その時まで、全体のグラフが出ていると思い込んでました。
- Reward functionが繰返しするにつれ増加する設計のReward graphの例
- Reward functionが増減する設計のReward graphの例
-
ログ(CloudWatchのインサイト)を見る
トレーニングで注意していること
-
時々、Reward graphの推移を見る/ログを監視するのが良い
-
Reward functionの設計によりますが、毎回完走できるモデルが速いのかはわからない
- 「毎回安定して完走するようになる」モデルにトレーニングしようとすると、「際どい(タイムが良い)コースを攻めないようになる」モデルにトレーニングしていることもあります。
運の要素があるか?
「ある」かも
Submitで完走できてしまう(完走できない)
何度テストしても2周できないモデルをSubmitしてみたら、2周に成功したことがあります。逆の方が多いですけど。
たとえば逆の方で。
練習で頑張るのに、本番に弱くて何度やっても完走してくれない(London Loop)
たまたま、凄いモデルをトレーニングできてしまう人も居るかもしれない
ハイパーパラメータをカンで当てちゃうとかは無理でも。
たとえばこういうモデルを作成していて、これからCloneして、Reward functionやHyperparametersも何も触らない方針で学習を継続するとします。
Cloneし30分学習したもの 2(クリックで拡大します)
当たり前ですが、結果は異なります。
常に**良いほう(この例だと2)**を引く運が欲しい!!
RoboMakerの結果に反して、実機では完走できる(できない)
私は実機(Amazonのラジコン?ロボット)を走らせたことはないです
コースの路面など、RoboMakerとの微妙な動作の違いがあるか気になっています。
London Loop用に作成している私のモデルは、コースの幅を大きく使って走るようにトレーニングしています。
そのためか、タイムが早いモデルほど結果的にコースアウトし易い傾向があります。
1か月間、何度も挑戦できるVirtual Circuit用の方針ですが、実機では何度も挑戦できない事を想定すると、今のやり方では難しそうです。
ただ逆に、実機のグリップが良いならコースアウトしないかも。。。
試しに走らせてみたい。
移動
次の記事
なし(最後の記事です)
前の記事
DeepRacerのはじめかた(7)Virtual Circuit
Top 概要と目次 に戻る
DeepRacerのはじめかた(1)概要と目次