これなあに?
お世話になっているLiaroという会社で強化学習の勉強会をやりたいね~という話になり、興味がありつつもノータッチだった僕は急いで情報を集め勉強することになりました。
この記事は勉強会を行うにあたって、参考になったサイト、もしくは情報をまとめたものです。
勉強会で共有するために作ったけどせっかくだしqiitaにあげておくことにしました。
読んだ感想や要点なんかも簡単にまとめれたらと思います。
特に参考になった記事、重要だと思った記事には★マークをつけておきます。
僕自身が強化学習初心者ということ、短い時間でまとめたことから誤りや不適切な点があるかもしれません。
その場合は指摘していただけると幸いです。
理論解説
ほとんどが入門記事。大抵シンプルなクエリでググったら上位に来る記事。
記事を順番に読むことを何週もすることでどんどん理解が深まっていくので、理解したいなら3週はしよう。
僕は2週くらいしかしてない。つまり、理解してない。
ゼロからDeepまで学ぶ強化学習★
勉強の際に一番参考になったと思う記事。
問題設定をかみ砕いて解説するところから始まり、最新のDQNまでまとめられている。
実装の際重要になる工夫などもカバーしており、情報に引用がしっかりついているのがとても良い。
Pythonではじめる強化学習
これも参考になる入門記事。
図が多く理解しやすいと思う。
使われているコードはUdacityの講義から引用しているらしい。
英語ができる人はこっちもみるとよさそう。
強化学習入門★
画像処理・chainer界隈では有名(だと個人的に思っている)な@mitmulさんの解説スライド。
古典的な心理実験や強化学習の背景、問題設定が図でわかりやすくまとまっている。
スライドによる擬似的なアニメーションがあるため、思考の流れが理解しやすくてよかった。
照英がかわいい。
深層強化学習:ピクセルから『ポン』 – 前編★
NeuralTalkで有名なStanfordのKarpathy氏の深層強化学習のブログ記事の翻訳。元記事は[こっち](深層強化学習:ピクセルから『ポン』 – 前編)。
他の解説記事はQ学習ばかりだが、こちらはpolicy gradients(方策勾配法)についてまとめられている。
Pongを学習するニューラルネットがnumpyを使ってスクラッチ実装(130行程度!?)されていてすごい。
Karpathy氏のブログ記事はどれは質が高いので、機械学習に興味がある人は読むべき。
書籍・論文
書籍や論文で勉強できるようになりたい。
良く引用されるものをまとめる。
Reinforcement Learning: An Introduction★
有名(らしい)な強化学習の教科書。
強化学習の基礎を学びたいならこれで間違いないらしい。
英語版はwebで無料で読める。日本語版書籍は有料。
http://arxiv.org/pdf/1312.5602.pdf
Deep Q-Learningの論文。
DeepMindの名前を世に知らしめるきっかけになった論文だった気がする
Mastering the game of Go with deep neural networks and tree search
囲碁のトッププロを倒して一躍話題となったDeepMindのAlphaGoの論文。有料。
ライブラリ
実装してみたい!試してみたい!となったときに。
理解を深めるためにスクラッチで書くのも良いけれど、すぐ動かすならやはりあるものを使うのが一番。
PyBrain
深層学習が流行り始めたころは良く使われていた(と記憶してる)ライブラリ。
ただ、標準で強化学習のための環境を提供しているのはこれぐらい?(要調査)
これを使って迷路を解いてみる実装例が見つかった。
REINFORCEjs
あるかな?と思ってたらやっぱりあったjavescriptのライブラリ。なんでもJSの動きがここにも?
サイトにデモがあり、眺めてるだけで結構面白い。JSの強みを活かしている。
というか作者がkarpathy氏。すごいなこの人。
OpenAI Gym★
強化学習のための__環境__を提供するライブラリ。この環境に対してTensorFlowやChainerなどを使って強化学習の開発をしてくださいね、という感じ。
みんなが同じ環境を使えるので、他との比較も行いやすい。訓練結果をアップロードすることもでき、ランキングが公開されているのでモチベーションにもつなげやすい。
活動も活発なので、他の機械学習ライブラリを使える人はこれを使うのが良いと思う。
まずは使える環境を見てみよう。
Life in Silico(LIS)
ドワンゴ人工知能研究所が開発した、強化学習に必要になる要素をまとめたライブラリ。強化学習のための環境とエージェントが提供されている。
エージェントを動作させる環境はUnityで構築するため、見栄えは一番良い。
CNNとDQNを組み合わせたエージェントが提供されているし、chainerなどで自作したエージェントもLISの環境で試せるらしい。
実装例
他の人の実装を読むのは理解するのに役立つ。
Q学習-最良経路を学習するスクリプト書いた (powered by Python)★
迷路探索を行うエージェントの学習を行う実装例。python実装。
今回の勉強会のコードはここを非常に参考にした。
DQNの生い立ち + Deep Q-NetworkをChainerで書いた
Deep Q-NetworkのChainer実装例。
Q学習やDQNに関する解説もついている。
DQNをKerasとTensorFlowとOpenAI Gymで実装する★
タイトル通りの記事。
強化学習の解説もあり、特に既存手法や強化学習自体に存在する問題点の解説が良かった。こんなむずかしさがあるのか~みたいな。
コードの解説も詳しく、Keras等に慣れている人はこの記事は非常に参考になるはず。
強化学習で考えるギャンブラーの最適行動
上でも挙げた『Reinforcement Learning:
An Introduction』の4章に出てくる「ギャンブラーの問題」についての実装例。C++実装。
問題設定が面白い。
まとめ記事
ぼくのまとめを見るよりももっと有意義なまとめをしてくれてる人はたくさんいます。
awesome-rl★
githubに上がっているawesomeシリーズ(僕が勝手にそう呼んでる)の強化学習編。
相変わらずの情報量。ライブラリや論文が気になる人はこれを読みましょう。
他のトピックもすごく良いので興味のある人は是非。
Deep Reinforcement Learning Papers
これも有志の方がまとめてくれた論文リスト。
最近の論文もカバーされていてすごい。