8
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

「ゲームから学ぶAI」を書きました

Last updated at Posted at 2022-07-15

新しい本を書きました。

Tech × Books plus シリーズ
ゲームから学ぶAI
——環境シミュレータ×深層強化学習で広がる世界
https://gihyo.jp/book/2022/978-4-297-12972-9

今回の内容は、DeepMindの論文解説です。囲碁AIである「AlphaGo」や、Atari 2600のビデオゲームをプレイする「DQN」など、全部で10以上の論文を図表を交えて解説しています。

本書を書くことになった元々のきっかけは、MinecraftをプレイするAIが流行り始めてるな、と感じたことです。2019年にリリースされた「MineRL」では、深層強化学習の技術でMinecraftを学習する環境が整備され、それから毎年コンペティションが開催されています。

2022年には、OpenAIから「VPT」という手法が提案され、AIが自力でダイヤモンドを採掘して、ダイヤモンド製の道具を作れるようになりました。

同じく2022年、「MineDojo」という新しいプロジェクトがスタートし、Minecraftの世界で自由に知識を積み上げていくような高度なAIを開発する取り組みも始まっています。

こうした一連の研究の背景として、MineRLプロジェクトが始まった理由を読んでみると、AIが人の行動を真似て学習する、いわゆる模倣学習が活発になっていることに気づきました。現代的な複雑なゲーム環境を学習するには、ランダムな行動から強化学習するだけでは限界があり、動画などを見て知識を得ていくAIが必要とされています。

模倣学習とは

「模倣学習」とは強化学習の一種であり、行動をうまく真似たときに報酬を与えることで、より人間らしい行動をAIに覚えさせようとする技術です。

MineRLのページには、模倣学習の成功例として、StarCraft IIをプレイするAIである「AlphaStar」が取り上げられています。AlphaStarは、人間同士の対戦記録(リプレイ)を用いた教師あり学習と、AI同士の自己対戦による強化学習との、その両方で模倣学習を実行し、人間らしく行動するAIを実現しました。

というわけで、AlphaStarの論文を読み始めたのですが、これがけっこう難しい。AlphaStarは、DeepMindが開発したActor-Critic型の深層強化学習である「V-Trace」を用いており、その起源は2016年の「A3C」や、2013年の「DQN」にまで遡ります。

AlphaStarのアーキテクチャは非常に複雑で、内部で「Transformer」やら「Attention」やら「Deep LSTM」やらが複雑に絡み合っています。

これはちょっと本腰を入れて読まないとわからないな、ということで、この機会にDeepMindが2020年までに発表した主要な論文を読んでみて、筆者が理解した内容を本書にまとめました。

目次

1章 ゲームAIの歴史
 - ボードゲーム、汎用ビデオゲーム、深層強化学習、RTS
2章 機械学習の基礎知識
 - 深層学習、RNN、自然言語処理、強化学習
3章 囲碁を学ぶAI
 - AlphaGo、AlphaGo Zero、AlphaZero、MuZero
4章 Atari-57を学ぶAI
 - DQN、Rainbow、Ape-X、R2D2、NGU、Agent57
5章 StarCraft IIを学ぶAI
 - SC2LE、AlphaStar
6章 Minecraftを学ぶAI
 - Malmo、MineRL、今後の展望

1〜2章は予備知識で、3〜5章がDeepMindの論文解説です。6章は例外的に、Minecraft関連の論文をいくつか取り上げた上で、2021年以降のゲームAI研究の動向をまとめました。

本書は初学者向けに執筆したため、予備知識がなくても読み進められるようにしました。取り上げた論文の多くは2020年以前のもので、普段から最新の論文を追い掛けている人からすると、内容的に古いと思うかもしれません。逆に、これから学習しようとする人にとっては、これまでの歴史をざっと振り返ることができるでしょう。

参考情報

より詳しい内容は、次のページから目次や前書きが参照できます。

ちなみに、紙版はモノクロですが、電子版(PDF/EPUB形式)はスクリーンショットなどがカラーになっていて見やすいです。

8
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
8
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?