はじめに
AWS DeepRacerは、AWSが提供する学習用ツールで、強化学習を活用した機械学習モデルのトレーニングや評価を行うことができます。このツールでは、自律走行する1/18スケールのレーシングカーを用いて、実践的な学習を楽しく体験できます。また、作成したモデルを世界中のユーザーと競わせることができる点も魅力のひとつです。
ひょんなことからDeepracerのレースに参加する事になったので、その際に行ったログ解析の手法をまとめます。
本業優先のため、簡単かつ無料で利用できるDeepRacerGuruを利用しました。
使用するログと概要
解析に使用するログはTrainingとEvaluationです。
概要を簡単に説明すると以下の通り。
-
Trainingログ
機械学習モデルが学習中に収集されるデータを記録します。
モデルのページを開き、Traingingタブのすぐ下にあるボタンから取得できます。
-
Evaluationログ
トレーニング後にモデルのパフォーマンスを評価するために使用されます。
モデルのページを開き、Evaluationタブの少し下にある赤枠のボタンから取得できます。
ログの準備
.tar.gzファイルがダウンロードされるので、2回解凍してください。
解凍後に現れるフォルダを潜っていくと「logs」フォルダがあるので、そこからさらに2階層潜ると以下のファイルが格納されています。
-
Trainingの場合:
~robomaker.log
-
Evaluationの場合:
~sagemaker.log
これらのログを、用途に応じてそれぞれ別フォルダに格納すると管理がしやすくなります。
DeepRacerGuruの使い方
- DeepRacerGuruを起動し、「Track」を押して対象コース名を選択します。
- [File] → [Switch Directory] をクリックし、解析したいログが入ったフォルダを指定します。
- [File] → [New File(s)] を選択してインポートを開始します。「Import Succeeded」と表示されればインポート成功です。
- 自動生成されるJSONファイルの
model_name
の値を、使用するモデル名に変更しておくと後の解析作業がスムーズです。 -
[File] → [Open File] を選び、解析対象のモデルを開きます。
トレーニングログの解析
インポートが成功すると、以下のような画面が表示されます。この画面で、モデルがどのように学習したかを詳細に確認できます。
トレーニングログの解析はツールバーのAnalyze→Heatmap + Episode Routeで行いました。
Heatmapは、モデルがトラック上のどの位置を頻繁に通過したかを示すマップです。色が濃いほど頻繁に通過しています。
Episode Routeは、各トレーニングでモデルが通ったルートを緑の点で示します。これにより、モデルの動きを視覚的に追跡できます。
Episode Routeはコースアウトするか一周した時点で1つとし、各エピソードは右下のEpisodeブロック内のボタンで切り替え可能です。
2時間のトレーニングだと約200エピソードになります。
また、ツールバーのEpisodesである程度絞り込みが可能で、例えばEpisodes→Fast Lapsではとレーニング中最速のエピソードを表示可能です。
エピソードポイントをクリックすればその時点でのマシン情報を詳細に確認可能です。
報酬関数でprintを設定していれば、Log File Debugでreward等、パラメータの確認が可能です。
※SpeedやHeading等、State内に表示される変数も小数点以下まで表示されるので必要であれば出力します。
※どのようなパラメータが設定されているかは以下URLを参照してください。
https://docs.aws.amazon.com/ja_jp/deepracer/latest/developerguide/deepracer-reward-function-input.html
ちなみにAnalyze→Heatmap + Exit Pointsではコースアウト箇所の確認が可能です。
まず最後の直線をなるべく真っすぐ走らせたかったので、以下の報酬関数で学習を行いました。
報酬関数を全て載せるのは規約違反となるので、一部抜粋します。
報酬関数
if 44 <= closest_waypoints[1] <= 55:
reward = max(0.001, 1.0 - (distance_from_center / (track_width / 2.0)))
# headingが180に近いほど高報酬を与える
target_heading = 180.0
heading_diff = abs(heading - target_heading)
if heading_diff < 5.0: # ヘディングの許容範囲を狭める
reward += 10.0 - (heading_diff / 5.0) # 報酬を増加
else:
reward *= 0.5 # 許容範囲外の場合のペナルティ
# headingが-の場合は-180に近いほど高報酬を与える。左下へのふらつきを抑制
if heading < 0:
target_heading = -180.0
heading_diff = abs(heading - target_heading)
if heading_diff < 5.0:
reward += 10.0 - (heading_diff / 5.0)
else:
reward *= 0.5
if speed >= 3.5 and speed <= 4: # スピードの許容範囲を狭める
reward += 10.0 # 報酬を増加
else:
reward *= 0.5 # 許容範囲外の場合のペナルティ
print(f"WP 44-55: WP: {closest_waypoints[1]}")
print(f"Spd: {speed}")
print(f"Head: {heading}")
print(f"R: {reward}")
ある程度ふらつきが抑制され、直線終盤では安定して最高スピードが出るようになりました。
カーブの部分の走行についてはより複雑に思考してトライエラーを繰り返す必要があります。
実際の自動運転システムが作成される過程では天文学的な数の試行錯誤が繰り返されていると思うので、自動運転技術に携わる方々の努力は言葉に表せないくらい凄いなと思うことしかできません。
この記事が未来の技術者の役に立つことを願い、ここに締めさせていただきます。
お読みいただきありがとうございました!