社内勉強会：AWS DeepRacer基礎編（モデル作成）を開催した

Last updated at 2019-07-26Posted at 2019-07-19

はじめに

社内でAWS DeepRacer人口が増えてきており、ちょっと乗り遅れてしまった人向けにAWS DeepRacer勉強会基礎編を開催したのでその内容を公開します。

本記事では基礎編のモデル作成ついて解説しています。

その他の勉強会の内容については、以下の記事をご確認ください。

モデル作成準備

AWSマネジメントコンソールにログイン

AWS マネジメントコンソールにログインし、「サービス」の一覧でAWS DeepRacerを検索します。

リージョンの選択

ナビゲーションバー右上からリージョン名を選択し、「米国東部（バージニア北部）/ North Virginia」に変更します。

Reinforcement learningの立ち上げ

AWS DeepRacerコンソールが開いたら、左ペインの[Reinforcement learning]をクリックします。

モデル作成

モデル作成画面の立ち上げ

AWS DeepRacerコンソール画面から[Create model]ボタンをクリックします。

モデル名の設定

モデル名（Model name）とモデルの説明（Model description - optional）を入力します。
※ モデル名はアカウント内で重複しないように設定する必要があります。

Environment simulationの設定

トレーニングに使用するコースを選択します。
※ 7つのコースが利用可能（2019/07/17現在）

Action spaceの設定

以下のAction space（AWS DeepRacerのステアリングの角度とスピード）に関するパラメータを設定します。

Maximum steering angle：最大のステアリング角度
Steering angle granularity：ステアリング角度の分割数
Maximum speed：最大のスピード
Speed granularity：スピードの分割数

※ 筆者がAWS Summit Tokyo 2019に参加した際は、以下のパラメータに設定しました。

Maximum steering angle：25 degrees
Steering angle granularity：3
Maximum speed：6 m/s
Speed granularity：2

Reward functionの設定

車両の動作に応じた報酬関数を定義します。[Reward function examples]をクリックすると、報酬関数のサンプルを見ることができます。

※ 3つのサンプルが利用可能（2019/07/17現在）

Follow the center line (Default)

センターラインに沿って走行する報酬関数

def reward_function(params):
    '''
    Example of rewarding the agent to follow center line
    '''
    
    # Read input parameters
    track_width = params['track_width']
    distance_from_center = params['distance_from_center']
    
    # Calculate 3 markers that are at varying distances away from the center line
    marker_1 = 0.1 * track_width
    marker_2 = 0.25 * track_width
    marker_3 = 0.5 * track_width
    
    # Give higher reward if the car is closer to center line and vice versa
    if distance_from_center <= marker_1:
        reward = 1.0
    elif distance_from_center <= marker_2:
        reward = 0.5
    elif distance_from_center <= marker_3:
        reward = 0.1
    else:
        reward = 1e-3  # likely crashed/ close to off track
    
    return float(reward)

Stay inside the two borders

トラックの境界線内で走行する報酬関数

def reward_function(params):
    '''
    Example of rewarding the agent to stay inside the two borders of the track
    '''
    
    # Read input parameters
    all_wheels_on_track = params['all_wheels_on_track']
    distance_from_center = params['distance_from_center']
    track_width = params['track_width']
    
    # Give a very low reward by default
    reward = 1e-3

    # Give a high reward if no wheels go off the track and
    # the agent is somewhere in between the track borders
    if all_wheels_on_track and (0.5*track_width - distance_from_center) >= 0.05:
        reward = 1.0

    # Always return a float value
    return float(reward)

Prevent zig-zag

ジグザグ走行を抑制する報酬関数

def reward_function(params):
    '''
    Example of penalize steering, which helps mitigate zig-zag behaviors
    '''
    
    # Read input parameters
    distance_from_center = params['distance_from_center']
    track_width = params['track_width']
    steering = abs(params['steering_angle']) # Only need the absolute steering angle

    # Calculate 3 markers that are at varying distances away from the center line
    marker_1 = 0.1 * track_width
    marker_2 = 0.25 * track_width
    marker_3 = 0.5 * track_width

    # Give higher reward if the agent is closer to center line and vice versa
    if distance_from_center <= marker_1:
        reward = 1
    elif distance_from_center <= marker_2:
        reward = 0.5
    elif distance_from_center <= marker_3:
        reward = 0.1
    else:
        reward = 1e-3  # likely crashed/ close to off track

    # Steering penality threshold, change the number based on your action space setting
    ABS_STEERING_THRESHOLD = 15

    # Penalize reward if the agent is steering too much
    if steering > ABS_STEERING_THRESHOLD:
        reward *= 0.8

    return float(reward)

※ 筆者がAWS Summit Tokyo 2019に参加した際は、Prevent zig-zagをベースにした報酬関数でトレーニングしました。

Hyperparametersの設定

以下のハイパーパラメータに関する設定をします。

Gradient descent batch size：勾配降下のバッチサイズ
Number of epochs：エポック数
Learning rate：学習率
Entropy：エントロピー
Discount factor：割引係数
Loss type：損失タイプ
Number of experience episodes between each policy-updating iteration：各ポリシー更新反復間のエクスペリエンスエピソードの数

※ 筆者がAWS Summit Tokyo 2019に参加した際は、Gradient descent batch sizeを128にし、それ以外はデフォルトでトレーニングしました。
※ ハイパーパラメータの詳細については、社内勉強会：AWS DeepRacer基礎編（ハイパーパラメータ）を開催したをご確認ください。