0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

TD-Gammon でお試し結果

Posted at

TD-Gammon でお試しの結果を書いておこう。

スクリーンショット 2021-03-05 080012.png

自己対戦を 1,000,000回繰り返した結果である。10万回学習するごとに、gnubgと100回対戦し、XGで解析した。ご覧の通りPRの改善傾向は続くものの、まだ初心者レベルである。
キューブアクションは学習していないので改善する余地が無いはずだが、グラフは若干右上がりである。おそらく、ムーブが改善するにつれ、キューブエラー場面のエラー値が小さくなっているのだろう。

棋譜を確認すると、botのプレイには大きく2つの問題があった。

"ギャモン"を知らない

バックギャモンでは、普通に勝つと1点が得られるが、特定の条件を満たすとギャモン勝ち=2点、バックギャモン勝ち=3点が得られる。今回お試しした実装では、勝った時の reward は常に1点で、ギャモン勝ちをしようが見返りがないのである。よってギャモンを目指す手や、ギャモンセーブする手が見過ごされる傾向にあると思った。

5ゾロブリッツが覚醒していない図。
スクリーンショット 2021-03-05 193441.png

ギャモンセーブなんて教わってませんの図。
スクリーンショット 2021-03-05 194437.png

ベアオフが下手くそ

理由は定かではないが、ベアインやベアオフで大きなエラーが散見される。gnubg や XG は、ベアオフデータベースなるものが存在し、終盤ではニューラルネットに頼っていないようだ。

以下よりもっと単純なポジションでエラーしている例もある。
スクリーンショット 2021-03-05 194824.png

とにかく、まだまだですね

この子が弟子だったら、破門にしたいようなムーブが山盛りです。
スクリーンショット 2021-03-05 193145.png
スクリーンショット 2021-03-05 193337.png

これから

TD-Gammonでの学習はこれくらいにして、強化学習理論の勉強や Agent の実装、または使える既存の実装を吟味していこうと思います。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?