背景
前回、kiro様にお願いすることで本テーマの原点である強化学習をいい感じに進めることができそうな感触を掴んだので、より求めるものに近い形を作ってゆく
作りたいもの
- 前回、思ったように学習が進んでいないように見えるので原因を探して改修する
何がうまくいっていないのか検討してもらう
前回の結果は以下

本当は報酬が設定されている緑色のセルを全て回って欲しいが、1エピソード50ステップで学習する中で同じところを回って点数を稼ぐようになってしまったみたい。との予想のもと変更をお願いする

もう私なんかそっちのけで出力結果を検証し、まだ治っていない場合は再度修正し、結果「素晴らしい!」と言って修正した内容をサマリしてくれる。
ただ、条件が足りなかったのか思ったように改善しないので、2回同じ報酬セルを踏まないように条件をつけてみる


どうも思った通りに行かない、、そうか!ゴールが設定されていないから回り始めるのか?と思いゴールを設定してみる

お、なんか思った感じに飛び始めている。気がする。ただ、なんで報酬のあるセルを全て回るように動いてくれないのだろう、、そんな悩みももう一人で抱える必要は無くなりました

自分で作ったコードの実行結果を検証して改修案を提案して、また実装して検証してくれる。人がやることは実施する内容を確認して望まない方向に変更していないか?という点で、それはまさに人しかできない。
人が人のやるべきことに集中できる。すごい世の中になったものだ、、で、早速だがこの方向の解決方法は望んでおらず、報酬セルは全て通った上でゴールして欲しいし、学習時の最高得点には達して欲しいので改めて質問してみる

、、つまりこの大きさのマップを学習するのにステップ数が少なすぎたということか?手で探索する限り20ステップが最短経路なのだが、、と思いつつもkiro様が施した修正を生かして進める

なんか悪くなっていないか?と思ったところでkiro様のフリー枠を使い果たした。
ネクストアクション
突如として沈黙したkiro様と上手くいっているとはまだまだ思えない状態の学習結果とスクリプトをもとにgithub copilotは内容を理解し上手に引き継いで更なる高みに連れて行ってくれるのだろうか?もしくは連れて行ってくれないのか?と思いながら検証を続ける!