More than 5 years have passed since last update.

(随時更新) 強化学習研究会アウトプット by Team AI

Last updated at 2018-11-18Posted at 2018-09-24

Team AIでは月一回渋谷で強化学習研究会を行なっています。
機械学習の次のフロンンティアとして注目されるエキサイティングな領域であり、
DeepMindをはじめとして進化のスピードがとても速いですよね。
毎回のアウトプットを、記事にまとめていきます。

はじめての方はここから

小川さんの強化学習まとめオススメ!
https://qiita.com/sugulu/items/3c7d6cbe600d455e853b

小川さんの初心者用強化学習チュートリアル本
https://amzn.to/2NAuCdf

大渡さんが翻訳した強化学習理論本
https://amzn.to/2IeEvrb

大渡さん参画のサッカー戦績予測プロジェクトWARP
(ワールドカップ日本vsベルギー戦も日本が勝つ確率32%と予測し的中)
=> 実際に勝敗に賭けることができるイギリスなどではオッズにどういう数理モデルを使うのか気になります
https://warp-football.jp/

ChainerとOpen AIのチュートリアル本
https://amzn.to/2Dss2kD

Udemy強化学習ビデオシリーズ (85%offで1200円くらい)
https://www.udemy.com/tensorflow_reinforce/

Awesome Reinforcement Learning (Githubの素晴らしいまとめ=>読みきれません)オススメ!
https://github.com/aikorea/awesome-rl
https://github.com/tigerneil/awesome-deep-rl
https://github.com/jgvictores/awesome-deep-reinforcement-learning

人気のAndrew Ng先生が教える強化学習
https://www.youtube.com/watch?v=RtxI449ZjSc&feature=relmfu

UC Berkeley AI Open Course (http://ai.berkeley.edu/lecture_videos.html)
Note: Videos from "Markov Decision Processes 1" to "Reinforcement Learning II" help to get a basic understanding of RL (feel free to dive deeper obv)
Stanford University (Andrew Ng) A little more advanced and theoretical than the UC Berkeley one IMO but amazing nonetheless. (in order)
-https://www.youtube.com/watch?v=RtxI449ZjSc

Deep Reinforcement Learning
Quick MIT Video: https://www.youtube.com/watch?v=MQ6pP65o7OM
Good easy read: https://skymind.ai/wiki/deep-reinforcement-learning#reward

at the bottom of this article theres references to tons more resources

2018/11/18更新

This Curious AI Beats Many Games...and Gets Addicted to the TV
https://www.youtube.com/watch?v=fzuYEStsQxc

Open AI

Reinforcement Learning with Prediction-Based Rewards
https://blog.openai.com/reinforcement-learning-with-prediction-based-rewards/

DeNA

DeNA TechCon2018 ゲーム体験を支えるための強化学習
https://www.slideshare.net/juneokumura/dena-techcon2018

Ape-X

【深層強化学習】『2018年最強手法(?)』Ape-X 実装・解説
https://qiita.com/omuram/items/bb7d463d8177cb395bb7
=> RND / R2D2なども流行っている

2018/9/24更新

DeepMind

DeepMind StarCraft2
https://deepmind.com/search/?query=starcraft

StarCraft Video by Siraj
https://www.youtube.com/watch?v=dhlzly8jGzI

StarCraft by TwoMinutes Papers
https://www.youtube.com/watch?v=St5lxIxYGkI&t=1s

AlphaGo Movie (Netflixで観れます。オススメ!)
https://www.youtube.com/watch?v=8tq1C8spV_g

シュミレーション環境で歩行を学習した四つ足ロボットが実機でもアルゴリズムデプロイに成功
https://www.youtube.com/watch?v=lUZUr7jxoqM

Open AI

Open AI Dota 2
https://blog.openai.com/dota-2/

Open AI Dota2 YouTube 多数あります
https://www.youtube.com/watch?v=eaBYhLttETw

Open AI Gym - Codeを写経すると良い
https://gym.openai.com/

Ingredients for　 Robotics Research
https://blog.openai.com/ingredients-for-robotics-research/

Microsoft

Microsoft Reinforcement Learning
https://www.microsoft.com/en-us/research/group/reinforcement-learning-group/

PFN

ChainerRL
https://research.preferred.jp/2017/02/chainerrl/

自動運転

一番原始的な自動運転アルゴリズムはScratchでも書ける=道をはずれない
https://www.youtube.com/watch?v=Mez2UUoz5wU

個人ハッカーが作った自動運転オープンソースComma.ai
https://comma.ai/
https://www.youtube.com/watch?v=KTrgRYa2wbI&t=1s
https://github.com/commaai

Google Project Magenta

Googleのアート支援プロジェクトでRNN+強化学習で作曲のアルゴリズムが登場
https://github.com/tensorflow/magenta

その他

強化学習の事例集
https://qiita.com/daisuke-team-ai/items/ace0e1b098ee0bced127

強化学習の通信インフラ最適化への応用事例
https://pdfs.semanticscholar.org/b49b/130c98517337fe0a6bfe71ce8c86beeb0a88.pdf

オライリーの強化学習ハンズオンチュートリアル(英語)
https://oreil.ly/2xMs5Sq

2018/10/21 追記

三宅陽一郎さんの人工知能哲学本は西洋編・東洋編がある
https://amzn.to/2AlseyD

StarCraftの強化学習環境構築ガイド by Siraj
https://www.youtube.com/watch?v=URWXG5jRB-A

Open AI のBaselineアルゴリズム
https://github.com/openai/baselines

DeepMindのpysc2(StarCraft用のPythonラッパー)
https://github.com/deepmind/pysc2

好奇心を最大化する強化学習 by TwoMinutesPaper
https://www.youtube.com/watch?v=9S2g7iixB9c&vl=en

逆強化学習とGAN by 松尾研
https://www.slideshare.net/DeepLearningJP2016/dlgenerative-adversarial-imitation-learning-82875615

2017/10/11追記

Team AI 強化学習研究会を開催しました。

今日はインド人、大手ポータルサイト、大手IT企業の方々交え、
初心者にとってどうやって強化学習の実装を学んでいけば良いのか議論しました。小川さんから、非常にわかりやすいQ-Learningの解説もありました。

エージェントが、状態(S)から行動(A)を起こし、報酬(R)や罰則(P)を受けて学習を進めていく基本コンセプトをわかっている人は比較的多いとは思うのですが、
いざそれを実装するとなると思考停止になってしまいますよね？

今日の結論は、まずは下記の小川さんのチュートリアルでOpen AI GymのCartPole(棒立て)にチャレンジし、徐々に複雑なものに適用すれば良いのではないかという結論になりました。ゲームAIは相当ハードルが高いです。

また、下記UCバークレーの強化学習シリーズでも語られている様に、まだビジネス上の問題解決に使われている技術ではないので、非常にエキサイティングで進化の速い領域であると同時に、初学者にとっての学習ロードマップが存在しないことも課題だと思いました。深層学習のCNNの様にビジネスアプリケーションが多数存在する技術ならそこから逆算して学べばいいのですが、強化学習は学習そのものが目的になりやすいので、Team AIとしても何とかしたいと思いました。

トピック：

コミュニティメンバー小川さんの強化学習実装チュートリアル(棒立て)
https://qiita.com/sugulu/items/bc7c70e6658f204f85f9

UCバークレーの強化学習ブートキャンプビデオコース(Aug 2017 ver.)
https://sites.google.com/view/deep-rl-bootcamp/lectures

強化学習実装チュートリアルシリーズ
https://medium.com/…/simple-reinforcement-learning-with-ten…

Open AI Gymの使い方チュートリアル
https://www.oreilly.com/…/introduction-to-reinforcement-lea…

PFNの強化学習ライブラリChainerRL
https://research.preferred.jp/2017/02/chainerrl/

Andrej Karpathy Blog (TeslaのAIディレクター)
http://karpathy.github.io/2016/05/31/rl/

Sutton教授の強化学習本(定番)
https://www.amazon.co.jp/…/4627826613/ref=la_B004LSYBGG_1_1…

Chess AIの作り方チュートリアル
https://medium.freecodecamp.org/simple-chess-ai-step-by-ste…

強化学習の応用成功事例集
http://umichrl.pbworks.com/…/Successes%20of%20Reinforcement…

東大高橋先生の本がすごい
メカ屋のための脳科学入門
https://goo.gl/S23Jyf

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up