Help us understand the problem. What is going on with this article?

ライントレーサーをDeep Q Learningで教育する - Chainer

More than 3 years have passed since last update.

みなさん ライントレーサーってご存知ですか?
メカトロの入門として遊んだ方もいくらかいるのではないでしょうか。
Fast Line Tracer Robot (1st attempt) - Lego Mindstorms NXT 2.0

今回はChainerでやってみるDeep Q Learning - 立ち上げ編 に引き続き、
基礎体力づくりとしてライントレーサーにDQNで校庭を走らせることにしました。

GitHubにも置きました。良いパラメータやモデル、アルゴリズムなど見つけたら教えてください。
GitHub : DeepQNetworkTest/DQN003.py

プログラムの雰囲気

006.gif

ライントレーサーは前記Youtubeのロボと同様に光センサ1個の情報で動きます。
走行はmobile robot風に左輪と右輪の速度差などで向きを変えたり前進したりする仕様。慣性はない。

線の太さはグラフィックとして書かれている1pxを中心に幅10pxです。

緑色

そっけないルールベース ライントレーサー

RuleBasedRobot
        # 線が見えているとき
        if self.EYE.obj == 1:
              # [左輪速度、右輪速度] // 左曲がり
            action = [0.5, 0.1]
        # 線が見えていないとき
        else:
            # 右曲がりに移動
            action = [0.1, 0.5]

光センサがコースを検知したら左曲がりに進行、検知しなかったら右回りに進行、という味気ないやつ

青色

僕らの期待の新星DQN

入力:[[光センサの検知/不検知][前回とった行動]]を1セットに過去5個分 : 20次元
隠れ層:50ユニット x 2枚ほど
       <実は前の記事で隠れ層が1枚なのに2枚と勘違いしてました>
出力:左曲がり進行、直進、右曲がり進行

ご褒美:コースから5px以内 +1ポイント
         10px以内 +0.5ポイント
    壁際2px以内 -1ポイント

そして、壁にぶつかったら張り付き続けてしまい学習時間に支障が出そうになるのでコース上に位置リセット

現状の状況

いくら直近の過去のことを覚えていても自分の位置もわからない一つ目お化けじゃ迷子になる様子?

せめて2つ以上センサーがあるようなライントレーサーにしたり、自分の位置を計算したりするなど何らかの手段で、自分とコースの位置関係を把握できるようにしないと上手く走れるようにならないのかなぁ。

たまに半周くらい上手く走ってくれると「おぉぉぉぉお、今回こそは!」と手を汗を握りますが毎度残念。眺めているのは楽しいです。でも少なくとも15分くらいの教育ではダメみたい。

50分くらいの教育結果

1つ目 ライントレーサーと視野を持たせたライントレーサーの学習を競争させてみると、
やっぱりというか視野を持ったロボットの方がラインをトレースできるようになるのが圧倒的に早い。

というか1つ目君は迷子になった子にしか見えない。せめて線の濃淡を見えるようにしてあげた方がよかったのだろうか。

008.gif

右の例でネットワークの規模は入力数以外変えてないのですが、(NN: 18 x 50 x 50 x 3)
コースをたどる程度のレベルだと、こちらのデモは意外と手の届く範囲にあるかもしれない。Autonomous robot car control demonstration in CES2016

しかし、273 x 600 x 400 x 200 x 100 x 50 x 5という、
かなり大規模なNN使っていますよね。


(SlideShareの埋め込み方ご存じないですか?)

ただ難易度の高そうなのがいくつか残っていますね。

  • 分散学習
  • コースのトレース
  • 車同士の衝突回避
  • モータや慣性など物理応答の反映
  • 重力・斜度などの外乱対応
  • 画像認識から車体位置把握 → やらないと思う
  • 無線による遠隔操作、むだ時間 → 興味あるけどロボカー買えるおこづかいがあったら…

条件を複雑にしていくと、うちのショボパソコンだときつそうだけど、
逆に、これだけの計算回しても絵を描けるって大分早くなったよなぁ。

全部マイコンでできる時代も、もう少しか!?

追伸

そうこう書いている間に、一つ目くんも校庭1周走れるようになってた。

君も合格だ!!!

009.gif

少し、ご褒美をいじっています

            # Reward
            # コースにどれだけ沿っているかのご褒美
            proximity_reward = 0.0
            if self.Course.adLines([ag.pos_x, ag.pos_y], 5.0):
                proximity_reward = 1.0
            elif self.Course.adLines([ag.pos_x, ag.pos_y], 10.0):
                proximity_reward = 0.5
            # 壁にぶつかったら罰則
            if self.Box.adLines([ag.pos_x, ag.pos_y], 3.0):
                proximity_reward -= 1.0

            # 直進を選好するようにご褒美
            forward_reward   = 0.0
            if(action[0] == action[1] and proximity_reward > 0.75):  
                forward_reward = 0.1 * proximity_reward

            # センサがコースを検知し続けるようなインセンティブ           
            eye_reward = 1.0 if ag.EYE.obj == 1 else 0.0

            # ご褒美の合計
            reward = proximity_reward + forward_reward + eye_reward
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした