Chainerで機械学習と戯れる: Treasureゲームの強化学習を110日程続けた経過メモ

Posted at 2015-11-14

はじめに

賢い学習モデルでなくてもそれなりに目的は達成できるのか、というところに興味があるところです。

現在のハイスコア時の動きを動画にキャプチャしました。
https://youtu.be/iyBHR1gzumA

前回の記録を見ると、

でスコア更新していたようです。今回のを見ると

でスコアを更新していたようです。
遂に1000万回突破してました。感慨深い。。

「549万回」目(0:43~)のときに、敵をぐるっと一周するような動きをしていました。
遂に追いつめられるだけじゃない感じになったのかな。

「1057万回」目(2:09~)のときに、画面中央で上下に大きく振動するようになりました。
徐々に右にずれていって、結果的にお宝を１つ残してあとは全部回収できてました。
惜しい・・・

「1308万回」目(2:52~)のときに、何度か敵と左右を入れ替わりながらお宝を回収している様子が見受けられました。ただ、お気にいりの右下エリアに入ると幼いころの体験のせいか抜け出せないようでした。。。
途中もう少しで残りの一つも取れてそうだったのにな。惜しい・・・

年内には全部回収してくれるかもしれないなぁ。ここまで来たら、そこまではやらせてみようかなと思います。

JumpGameも同様に実行していたので結果を見てみました。
こちらはルールが単純な割に、途中に意地悪な穴の連続があって、そこを超えられるかが課題のようでした。
結果として、面の最後までいった記録は残っていましたが、現時点でも途中の穴に落ちることが頻繁にありました。

学習したというよりは「たまたま上手くクリア出来たことがあった（がその行動自体を学ぶことはできなさそうだった）」という感じです。

こういうモデルだと、一回のKey入力のミス（１フレームタイミングがずれること）が致命的な誤操作になるようなシビアなゲームはもしかしたら辛いのかなぁ、とも思います。
人間向けのゲームで普通それはないですしね。

TensorFlowとかも面白そうですね。
この分野は夢が広がるなー。