3
4

More than 1 year has passed since last update.

AWS DeepRacer 日記 第1回(2021/10) ※なんと初月にプロリーグ参加を達成

Last updated at Posted at 2021-11-12

AWS DeepRacer 日記 2021/10

2021年10月から本格的にDeepRacerリーグに参加し始めました。
今回はDeepRacer日記第1回です。
筆者の試行錯誤を記載していきます。
参考になればうれしいです。

※DeepRacer参加方法については下記にまとめています

10/4

学習

まずは車の作成(メニュー:Reinforcement learning>Your garage)

スクリーンショット 2021-10-04 220105.jpg

Stereo Cameraは障害物検知に特化なので、タイムトライアルならCamera一択だと思います。
※誰でも参加可能なVirtualLeagueはタイムトライアルです。
LIDAR sensorは光検出・測距センサーのこと。対戦や障害物検知に特化。こちらもタイムトライアルなら不要

次にモデル作成(Reinforcement learning>Your models)

学習するコースの選択
10月VirtualLeagueのTrackはExpedition Loop である模様。こちらを選択
スクリーンショット 2021-10-04 220731.jpg

Race TypeはVirtualLeagueなのでTime trial
トレーニングアルゴリズムはとりあえずPRO※

image.png

※トレーニングアルゴリズムは以前まではPRO一択だったが、SACが増えていたので、マニュアルを確認

英語直訳した感じの日本語でPROとSACの差があまり分からん。。
PROは安定しやすく、SACはデータ効率が良いらしい。
とりあえず今回はデフォルトのPROを選択

ハイパーパラメータは玄人向けの設定らしいので、一旦デフォルトのままとした(各パラメータの意味理解も薄い)
スクリーンショット 2021-10-04 222119.jpg

アクションスペースはスピードを2に上げてみる。あとはデフォルトのまま
スクリーンショット 2021-10-04 222309.jpg

デフォルトのセンターラインに近いと報酬が高い関数があるので、
それに加えて下記の記事の「パターン2:早いスピードで走行させる」を参考に
スピードが速いと報酬を多めにした記述(SPEED_THRESHOLD~)を追加

使用した報酬関数

def reward_function(params):
    '''
    Example of rewarding the agent to follow center line
    '''

    # Read input parameters
    track_width = params['track_width']
    distance_from_center = params['distance_from_center']

    # Calculate 3 markers that are at varying distances away from the center line
    marker_1 = 0.1 * track_width
    marker_2 = 0.25 * track_width
    marker_3 = 0.5 * track_width

    # Give higher reward if the car is closer to center line and vice versa
    if distance_from_center <= marker_1:
        reward = 1.0
    elif distance_from_center <= marker_2:
        reward = 0.5
    elif distance_from_center <= marker_3:
        reward = 0.1
    else:
        reward = 1e-3  # likely crashed/ close to off track

    SPEED_THRESHOLD = 1.5 
    speed = params['speed']

    if speed < SPEED_THRESHOLD:
        # 低速走行の為、報酬は少なめ
        reward = reward * 0.5
    return float(reward)

10/11

評価

・学習結果の確認
こんなグラフが作成される。
IterationごとのRewardや完走率が確認できる。
ただし、学習時のこのグラフが何に影響するのか分からない。。
スクリーンショット 2021-10-06 095618.jpg

・評価の実施、評価結果の確認
スクリーンショット 2021-10-06 095643.jpg

・VirtualLeague参加
137位(599人中)。

スクリーンショット 2021-10-06 095807.jpg

VirtualLeague参加すると動画でどのような走りだったか確認ができる
スクリーンショット 2021-10-06 163811.jpg

コースアウトがまだ多い印象
→センターラインにいるときの報酬を高くして再学習させた方が良さそう
スピードは直線はもう少し速くしたいが、完走率向上後に変更してみる
などの考察をした。

ここでgithubで報酬関数を検索してみる(けっこういっぱいある、感謝)
https://github.com/search?q=DeepRacer+Reward&type=Repositories

玄人っぽい人の報酬関数を発見(340行!)
https://github.com/VilemR/AWS_DeepRacer/blob/master/reward_function.py
スクリーンショット 2021-10-16 163749.jpg

報酬関数の冒頭にコメント記載あり

This is the source code you cut and paste into AWS console. It consists of RewardEvaluator class that is instantiated
by the code of the desired reward_function(). The  RewardEvaluator contains a set of elementary  "low level" functions 
 for example the distance calculation between waypoints, directions as well as higher-level functions (e.g. nearest turn 
direction and distance) allowing you to design more complex reward logic.

要約すると
「これは、AWSコンソールにカット&ペーストするソースコードです。」
複雑だが、速そうなので、意味はわからずとも全ペーストで走らせてみることにする。(ありがとうございます)

そのままコピペすると下記のエラーに

The reward function contains illegal import(s): ['traceback']"}]

tracebackがimportできない模様

tracebackはスタックトレースをログ出力するときに利用するモジュールであるため、デバッグ用と思われる
import traceback行を削除したら実行可能になった。

これでとりあえず、120分学習させてみる。

なんと83位に(Off-Trackも最初の16回から5回とだいぶ少なくなった)
スクリーンショット 2021-10-12 130540.jpg

インコースを攻めながらもコースアウトが減った
ここはセンターラインに近い場合を高い評価とするデフォルトの報酬関数では起きえない動き
スクリーンショット 2021-10-12 125733.jpg

トレーニング結果的にはまだ右肩上がりで、まだ学習の余地がありそう(この理解であっているのか、調べても分からない。。)
スクリーンショット 2021-10-12 130055.jpg

1位の人の車を見るとスピードが全然足りていない感じがする。

評価は1回Complete(100%)した!(前回は64%)安定性はかなり高くなった。
スクリーンショット 2021-10-12 130138.jpg

10/16

まだ成長の余地がありそうなので、同じ報酬関数でスピードだけを上げて再学習させてみる(スピードだけMAXの4に)
スクリーンショット 2021-10-16 163652.jpg

学習している動画を見てて思ったが、
Average percentage completion (Evaluating)はコースを平均してどれだけ走れたかを示すだけの指標で
例えば50%ならコースを半分コースアウトすることなく走れるモデルとなったことを意味している

この情報にスピードは関係なく、この評価自体が低くても(10%以下とか低すぎたらさすがに厳しいが)タイムが伸びることがありそうな気がする。

10/18

スピードが速いとカーブでコースアウトが多くなった。
スクリーンショット 2021-10-18 221912.jpg

2:47秒で前回モデルより23秒遅い
スクリーンショット 2021-10-18 221628.jpg

3周の合計タイムで競うから安定性の方を重視した方が良い結果になるのか・・。

Evaluation結果は63%で100%から下がってしまう結果となった。(学習のEvaluationグラフの通り)
スクリーンショット 2021-10-18 220022.jpg

再度、10/11に作成したモデルからクローンして、スピードだけ3にして試してみる
スクリーンショット 2021-10-18 222328.jpg

10/25

スピードを3にしたところ、2:35(10/11の最速モデルより11秒遅い)となった。
スクリーンショット 2021-10-25 214941.jpg

一度コースアウトすると同じところで何度もコースアウトしたり、
直線の道でジグザグに進んでしまうことが多く見られた。
スクリーンショット 2021-10-25 214914.jpg

評価は1回Complete(100%)した。ただし36%でOff Trackとなっているため、
安定性はスピード2のときよりは下がる。
スクリーンショット 2021-10-25 215511.jpg

スピード2にして全く同じパラメータで再学習させてみる。

ここで評価・分析のやり方がこれでよいのか気になってきたので、調査。

ログ分析の実施

タブローパブリックのダウンロードを実施し、下記サイトの通りやってみる
https://dev.classmethod.jp/articles/analysis_sim_trace_log/

・タブローダウンロード
https://public.tableau.com/ja-jp/s/download

10/28

スピード2にして全く同じパラメータで再学習させてみたところ、2:40で学習時間が短いモデルよりも遅くなった。
スクリーンショット 2021-10-28 102648.jpg

全く同じパラメータで多くの時間学習させ続けても成果が出ないことが分かった。(これが過学習なのか。。)
スクリーンショット 2021-10-28 104433.jpg

学習のEvaluationグラフは100%に達していて、今までのモデルで最高の値になっていた。

カーブが連続する箇所でのコースアウトが目立つ。あと、やはり一度コースアウトすると連続でコースアウトする傾向にある。
スクリーンショット 2021-10-28 105004.jpg

ログ分析の実施

sim-traceのログにはスピードの項目が無いので、分析が難しいのではと感じた。
スクリーンショット 2021-10-28 110107.jpg

ログ分析で得られるものもあるとは思うが、Virtual Circuitへの参加を行うと、
いつでも動画で結果を確認できるので、現状はそれが改善検討を行う上では一番良さそう。

まとめ

・下記の報酬関数を利用すればだれでもプロリーグの参加が可能!!
https://github.com/VilemR/AWS_DeepRacer/blob/master/reward_function.py

・評価は現状ではリーグ参加して動画で見るのが一番良さそう

※ハイパーパラメータの理解を進めて、効率よく学習させる方法を調査したい。

3
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
4