LoginSignup
3
2

More than 5 years have passed since last update.

【将棋AI】「将棋AIで学ぶディープラーニング」を読む♪~自前モデルでコンピュータ将棋選手権やってみた

Last updated at Posted at 2018-09-12

将棋AIで学ぶディープラーニング
第十六夜は、ある意味整理するために、ここまで作成した将棋AIのどれが強いか総当たり戦をやってみた。
【重要】どうやらResnetのPGにバグがあったようです。ということで本記事は参考程度に読んでください。ディープなNetworkモデルについて別記事にする予定です。

やったこと

(1)将棋AIのlossと一致率(方策、価値)
(2)総当たり戦の結果

(1)将棋AIのlossと一致率(方策、価値)

それぞれのNetworkモデルに名称からリンクしています。
以下の収束性を見ると、収束性はバラバラです。そして一致率の良さからはResnetのNo.Batch Normalizationのものがとてもよくて期待が持てます。
また、ほかのものはモンテカルロ木探索を使っていますが、Policyだけは方策ネットワークがいいといった手をそのまま選んでおり、ある意味純粋にDeepLearningを使っていると云えるものです。

名称 loss 一致率(方策) 一致率(価値) 備考
policy 1.682677 0.4226734 - 方策ネットワークのみ
Policy_Value;Layer13 2.016 0.4204578 0.67033803 13層の方策・価値ネットワークでMCTS
Policy_Value;Layer23 2.1938 0.41157416 0.6601796 23層のMCTS
Resnet5 1.844657 0.4195995 0.6717752 Resnet5block12層
Resnet10 1.818387 0.40154335 0.6761505 Resnet10block22層
ResnetL4 2.1583886 0.39926776 0.6727783 1Block4層のResnetを5block;22層
ResnetNoBN 1.80566 0.4327175 0.68042606 Resnet5block12層だがBatchNormalizationなし

(2)総当たり戦の結果

だいたいの強さ指標としてLesserKaiを参加させてみました。
tornament1.jpg
勝敗は以下のとおり、順位が出ました。
なんとなく上記の一致率やLossの値があてにならないのがわかります。
※これすごく重要なことだと思いますが、中身はわかっていません
resultTornament.jpg
それぞれの対戦の結果は以下のとおりになりました。

---------- L13 L23 policy LKai R5 R10 RL4 RNoBN Win Draw Loss Pt
L13 - 2 1 2 2 2 2 2 13 0 1 13
L23 0 - 1 2 2 2 2 2 11 0 3 11
policy 1 1 - 2 1 1 2 2 10 0 4 10
LKai 0 0 0 - 2 2 2 2 8 0 6 8
R5 0 0 1 0 - 2 2 2 7 0 7 7
R10 0 0 1 0 0 - 1 2 4 0 10 4
RL4 0 0 0 0 0 1 - 0.5 1 1 12 1.5
RNoBN 0 0 0 0 0 0 1.5 - 1 1 12 1.5

ここでLKaiというのが将棋所に付属しているLesserKaiでレイティングは713ということになっています。ある意味これに勝てて初めて将棋らしくなると云えます。
今回、一番うれしかったのはPolicyがLesserKaiより上にきて、しかもすべてのNetworkモデルと互角以上で、負けなかったことです。
※最終的な目標はこの方策ネットワークによるモデルが一番強くなることです

勝敗の特徴としてはディープなものやResnetの成績が悪いということです。これは棋譜を十分に学習していないからかもしれません。もう少し学習を進めていけば真偽がわかると思います。
※どこかのフェーズで強化学習をする必要があると思っています

まとめ

・自前モデルでコンピュータ将棋選手権をやってみた
・方策ネットワークのPolicyが案外いい結果を出した
・ディープもResnetもあまりいい結果が出なかった
・そもそも一致率やLossの値が強さの指標値になっていない

・最終的な目標はこの方策ネットワークによるモデルが一番強くなることです
・強化学習をしてみよう

3
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
2