DeepRacer 報酬関数無しで学習→評価をするとどうなるのか

Last updated at 2022-02-07Posted at 2022-02-07

はじめに

報酬関数の比較をするうえで元となるデータが必要でした。
色々調べても報酬関数無しの評価データはさすがに見つかりませんでした。。。

DeepRacerはどんなに報酬関数を作りこんでも、報酬関数無しでも1時間$3.5の料金がかかるのであまり無駄な学習・評価したくないものですよね。。。

という事で自分で検証してみます！
報酬関数はどんな走りをしても同じ値が返るようにしてモデルを作成し、1時間の学習→評価をしました。

def reward_function(params):
    reward = 1e-3
    return float(reward)

結果はもちろん完走など出来ず、毎回大きなカーブを曲がり切れずにコースアウトをしていました。
しかしどんな走りをしても同じ報酬なのに一応コースに沿って走ろうとはしてくれるんだなーという発見もありました。

という事でコースにもよりますが今回のコースだと何もしなくても29％は走ってくれるという結果を今後の報酬関数の実装をする上での一つの判断基準としていきたいと思います！