More than 5 years have passed since last update.

強化学習で参考になったサイトまとめ

Last updated at 2017-03-27Posted at 2016-09-10

これなあに？

お世話になっているLiaroという会社で強化学習の勉強会をやりたいね～という話になり、興味がありつつもノータッチだった僕は急いで情報を集め勉強することになりました。

この記事は勉強会を行うにあたって、参考になったサイト、もしくは情報をまとめたものです。
勉強会で共有するために作ったけどせっかくだしqiitaにあげておくことにしました。
読んだ感想や要点なんかも簡単にまとめれたらと思います。
特に参考になった記事、重要だと思った記事には★マークをつけておきます。

僕自身が強化学習初心者ということ、短い時間でまとめたことから誤りや不適切な点があるかもしれません。
その場合は指摘していただけると幸いです。

理論解説

ほとんどが入門記事。大抵シンプルなクエリでググったら上位に来る記事。
記事を順番に読むことを何週もすることでどんどん理解が深まっていくので、理解したいなら3週はしよう。
僕は2週くらいしかしてない。つまり、理解してない。

ゼロからDeepまで学ぶ強化学習★

勉強の際に一番参考になったと思う記事。
問題設定をかみ砕いて解説するところから始まり、最新のDQNまでまとめられている。
実装の際重要になる工夫などもカバーしており、情報に引用がしっかりついているのがとても良い。

Pythonではじめる強化学習

これも参考になる入門記事。
図が多く理解しやすいと思う。
使われているコードはUdacityの講義から引用しているらしい。
英語ができる人はこっちもみるとよさそう。

強化学習入門★

画像処理・chainer界隈では有名(だと個人的に思っている)な@mitmulさんの解説スライド。
古典的な心理実験や強化学習の背景、問題設定が図でわかりやすくまとまっている。
スライドによる擬似的なアニメーションがあるため、思考の流れが理解しやすくてよかった。
照英がかわいい。

NeuralTalkで有名なStanfordのKarpathy氏の深層強化学習のブログ記事の翻訳。元記事は[こっち](深層強化学習：ピクセルから『ポン』 – 前編)。
他の解説記事はQ学習ばかりだが、こちらはpolicy gradients(方策勾配法)についてまとめられている。
Pongを学習するニューラルネットがnumpyを使ってスクラッチ実装(130行程度!?)されていてすごい。
Karpathy氏のブログ記事はどれは質が高いので、機械学習に興味がある人は読むべき。

書籍・論文

書籍や論文で勉強できるようになりたい。
良く引用されるものをまとめる。

Reinforcement Learning: An Introduction★

有名(らしい)な強化学習の教科書。
強化学習の基礎を学びたいならこれで間違いないらしい。
英語版はwebで無料で読める。日本語版書籍は有料。

http://arxiv.org/pdf/1312.5602.pdf

Deep Q-Learningの論文。
DeepMindの名前を世に知らしめるきっかけになった論文だった気がする

Mastering the game of Go with deep neural networks and tree search

囲碁のトッププロを倒して一躍話題となったDeepMindのAlphaGoの論文。有料。

ライブラリ

実装してみたい！試してみたい！となったときに。
理解を深めるためにスクラッチで書くのも良いけれど、すぐ動かすならやはりあるものを使うのが一番。

PyBrain

深層学習が流行り始めたころは良く使われていた(と記憶してる)ライブラリ。
ただ、標準で強化学習のための環境を提供しているのはこれぐらい？(要調査)
これを使って迷路を解いてみる実装例が見つかった。

REINFORCEjs

あるかな？と思ってたらやっぱりあったjavescriptのライブラリ。なんでもJSの動きがここにも？
サイトにデモがあり、眺めてるだけで結構面白い。JSの強みを活かしている。
というか作者がkarpathy氏。すごいなこの人。

OpenAI Gym★

強化学習のための__環境__を提供するライブラリ。この環境に対してTensorFlowやChainerなどを使って強化学習の開発をしてくださいね、という感じ。
みんなが同じ環境を使えるので、他との比較も行いやすい。訓練結果をアップロードすることもでき、ランキングが公開されているのでモチベーションにもつなげやすい。
活動も活発なので、他の機械学習ライブラリを使える人はこれを使うのが良いと思う。
まずは使える環境を見てみよう。

Life in Silico(LIS)

ドワンゴ人工知能研究所が開発した、強化学習に必要になる要素をまとめたライブラリ。強化学習のための環境とエージェントが提供されている。
エージェントを動作させる環境はUnityで構築するため、見栄えは一番良い。
CNNとDQNを組み合わせたエージェントが提供されているし、chainerなどで自作したエージェントもLISの環境で試せるらしい。