1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

DeepRacer 報酬関数無しで学習→評価をするとどうなるのか

Last updated at Posted at 2022-02-07

はじめに

報酬関数の比較をするうえで元となるデータが必要でした。
色々調べても報酬関数無しの評価データはさすがに見つかりませんでした。。。
image.png

DeepRacerはどんなに報酬関数を作りこんでも、報酬関数無しでも1時間$3.5の料金がかかるのであまり無駄な学習・評価したくないものですよね。。。

報酬関数無しでモデル作成

という事で自分で検証してみます!
報酬関数はどんな走りをしても同じ値が返るようにしてモデルを作成し、1時間の学習→評価をしました。

def reward_function(params):
    reward = 1e-3
    return float(reward)

報酬関数無しの結果

image.pngimage.png

結果はもちろん完走など出来ず、毎回大きなカーブを曲がり切れずにコースアウトをしていました。
しかしどんな走りをしても同じ報酬なのに一応コースに沿って走ろうとはしてくれるんだなーという発見もありました。

という事でコースにもよりますが今回のコースだと何もしなくても29%は走ってくれるという結果を今後の報酬関数の実装をする上での一つの判断基準としていきたいと思います!

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?