新しい本を書きました。
Tech × Books plus シリーズ
ゲームから学ぶAI
——環境シミュレータ×深層強化学習で広がる世界
https://gihyo.jp/book/2022/978-4-297-12972-9
今回の内容は、DeepMindの論文解説です。囲碁AIである「AlphaGo」や、Atari 2600のビデオゲームをプレイする「DQN」など、全部で10以上の論文を図表を交えて解説しています。
本書を書くことになった元々のきっかけは、MinecraftをプレイするAIが流行り始めてるな、と感じたことです。2019年にリリースされた「MineRL」では、深層強化学習の技術でMinecraftを学習する環境が整備され、それから毎年コンペティションが開催されています。
2022年には、OpenAIから「VPT」という手法が提案され、AIが自力でダイヤモンドを採掘して、ダイヤモンド製の道具を作れるようになりました。
同じく2022年、「MineDojo」という新しいプロジェクトがスタートし、Minecraftの世界で自由に知識を積み上げていくような高度なAIを開発する取り組みも始まっています。
こうした一連の研究の背景として、MineRLプロジェクトが始まった理由を読んでみると、AIが人の行動を真似て学習する、いわゆる模倣学習が活発になっていることに気づきました。現代的な複雑なゲーム環境を学習するには、ランダムな行動から強化学習するだけでは限界があり、動画などを見て知識を得ていくAIが必要とされています。
模倣学習とは
「模倣学習」とは強化学習の一種であり、行動をうまく真似たときに報酬を与えることで、より人間らしい行動をAIに覚えさせようとする技術です。
MineRLのページには、模倣学習の成功例として、StarCraft IIをプレイするAIである「AlphaStar」が取り上げられています。AlphaStarは、人間同士の対戦記録(リプレイ)を用いた教師あり学習と、AI同士の自己対戦による強化学習との、その両方で模倣学習を実行し、人間らしく行動するAIを実現しました。
というわけで、AlphaStarの論文を読み始めたのですが、これがけっこう難しい。AlphaStarは、DeepMindが開発したActor-Critic型の深層強化学習である「V-Trace」を用いており、その起源は2016年の「A3C」や、2013年の「DQN」にまで遡ります。
AlphaStarのアーキテクチャは非常に複雑で、内部で「Transformer」やら「Attention」やら「Deep LSTM」やらが複雑に絡み合っています。
これはちょっと本腰を入れて読まないとわからないな、ということで、この機会にDeepMindが2020年までに発表した主要な論文を読んでみて、筆者が理解した内容を本書にまとめました。
目次
1章 ゲームAIの歴史
- ボードゲーム、汎用ビデオゲーム、深層強化学習、RTS
2章 機械学習の基礎知識
- 深層学習、RNN、自然言語処理、強化学習
3章 囲碁を学ぶAI
- AlphaGo、AlphaGo Zero、AlphaZero、MuZero
4章 Atari-57を学ぶAI
- DQN、Rainbow、Ape-X、R2D2、NGU、Agent57
5章 StarCraft IIを学ぶAI
- SC2LE、AlphaStar
6章 Minecraftを学ぶAI
- Malmo、MineRL、今後の展望
1〜2章は予備知識で、3〜5章がDeepMindの論文解説です。6章は例外的に、Minecraft関連の論文をいくつか取り上げた上で、2021年以降のゲームAI研究の動向をまとめました。
本書は初学者向けに執筆したため、予備知識がなくても読み進められるようにしました。取り上げた論文の多くは2020年以前のもので、普段から最新の論文を追い掛けている人からすると、内容的に古いと思うかもしれません。逆に、これから学習しようとする人にとっては、これまでの歴史をざっと振り返ることができるでしょう。
参考情報
より詳しい内容は、次のページから目次や前書きが参照できます。
ちなみに、紙版はモノクロですが、電子版(PDF/EPUB形式)はスクリーンショットなどがカラーになっていて見やすいです。