Team AIでは月一回渋谷で強化学習研究会を行なっています。
機械学習の次のフロンンティアとして注目されるエキサイティングな領域であり、
DeepMindをはじめとして進化のスピードがとても速いですよね。
毎回のアウトプットを、記事にまとめていきます。
#はじめての方はここから
小川さんの強化学習まとめ オススメ!
https://qiita.com/sugulu/items/3c7d6cbe600d455e853b
小川さんの初心者用強化学習チュートリアル本
https://amzn.to/2NAuCdf
大渡さんが翻訳した強化学習理論本
https://amzn.to/2IeEvrb
大渡さん参画のサッカー戦績予測プロジェクトWARP
(ワールドカップ日本vsベルギー戦も日本が勝つ確率32%と予測し的中)
=> 実際に勝敗に賭けることができるイギリスなどではオッズにどういう数理モデルを使うのか気になります
https://warp-football.jp/
ChainerとOpen AIのチュートリアル本
https://amzn.to/2Dss2kD
Udemy強化学習ビデオシリーズ (85%offで1200円くらい)
https://www.udemy.com/tensorflow_reinforce/
Awesome Reinforcement Learning (Githubの素晴らしいまとめ=>読みきれません)オススメ!
https://github.com/aikorea/awesome-rl
https://github.com/tigerneil/awesome-deep-rl
https://github.com/jgvictores/awesome-deep-reinforcement-learning
人気のAndrew Ng先生が教える強化学習
https://www.youtube.com/watch?v=RtxI449ZjSc&feature=relmfu
-
UC Berkeley AI Open Course (http://ai.berkeley.edu/lecture_videos.html)
Note: Videos from "Markov Decision Processes 1" to "Reinforcement Learning II" help to get a basic understanding of RL (feel free to dive deeper obv) -
Stanford University (Andrew Ng) A little more advanced and theoretical than the UC Berkeley one IMO but amazing nonetheless. (in order)
-https://www.youtube.com/watch?v=RtxI449ZjSc
- https://www.youtube.com/watch?v=LKdFTsM3hl4&t=2978s
- https://www.youtube.com/watch?v=-ff6l5D8-j8
- https://www.youtube.com/watch?v=UFH5ibWnA7g
-
Deep Reinforcement Learning
Quick MIT Video: https://www.youtube.com/watch?v=MQ6pP65o7OM -
Good easy read: https://skymind.ai/wiki/deep-reinforcement-learning#reward
- at the bottom of this article theres references to tons more resources
#2018/11/18更新
This Curious AI Beats Many Games...and Gets Addicted to the TV
https://www.youtube.com/watch?v=fzuYEStsQxc
###Open AI
Reinforcement Learning with Prediction-Based Rewards
https://blog.openai.com/reinforcement-learning-with-prediction-based-rewards/
###DeNA
DeNA TechCon2018 ゲーム体験を支えるための強化学習
https://www.slideshare.net/juneokumura/dena-techcon2018
###Ape-X
【深層強化学習】『2018年最強手法(?)』Ape-X 実装・解説
https://qiita.com/omuram/items/bb7d463d8177cb395bb7
=> RND / R2D2なども流行っている
#2018/9/24更新
###DeepMind
DeepMind StarCraft2
https://deepmind.com/search/?query=starcraft
StarCraft Video by Siraj
https://www.youtube.com/watch?v=dhlzly8jGzI
StarCraft by TwoMinutes Papers
https://www.youtube.com/watch?v=St5lxIxYGkI&t=1s
AlphaGo Movie (Netflixで観れます。オススメ!)
https://www.youtube.com/watch?v=8tq1C8spV_g
シュミレーション環境で歩行を学習した四つ足ロボットが実機でもアルゴリズムデプロイに成功
https://www.youtube.com/watch?v=lUZUr7jxoqM
###Open AI
Open AI Dota 2
https://blog.openai.com/dota-2/
Open AI Dota2 YouTube 多数あります
https://www.youtube.com/watch?v=eaBYhLttETw
Open AI Gym - Codeを写経すると良い
https://gym.openai.com/
Ingredients for Robotics Research
https://blog.openai.com/ingredients-for-robotics-research/
###Microsoft
Microsoft Reinforcement Learning
https://www.microsoft.com/en-us/research/group/reinforcement-learning-group/
###PFN
ChainerRL
https://research.preferred.jp/2017/02/chainerrl/
###自動運転
一番原始的な自動運転アルゴリズムはScratchでも書ける=道をはずれない
https://www.youtube.com/watch?v=Mez2UUoz5wU
個人ハッカーが作った自動運転オープンソースComma.ai
https://comma.ai/
https://www.youtube.com/watch?v=KTrgRYa2wbI&t=1s
https://github.com/commaai
###Google Project Magenta
Googleのアート支援プロジェクトでRNN+強化学習で作曲のアルゴリズムが登場
https://github.com/tensorflow/magenta
###その他
強化学習の事例集
https://qiita.com/daisuke-team-ai/items/ace0e1b098ee0bced127
強化学習の通信インフラ最適化への応用事例
https://pdfs.semanticscholar.org/b49b/130c98517337fe0a6bfe71ce8c86beeb0a88.pdf
オライリーの強化学習ハンズオンチュートリアル(英語)
https://oreil.ly/2xMs5Sq
#2018/10/21 追記
三宅陽一郎さんの人工知能哲学本は西洋編・東洋編がある
https://amzn.to/2AlseyD
StarCraftの強化学習環境構築ガイド by Siraj
https://www.youtube.com/watch?v=URWXG5jRB-A
Open AI のBaselineアルゴリズム
https://github.com/openai/baselines
DeepMindのpysc2(StarCraft用のPythonラッパー)
https://github.com/deepmind/pysc2
好奇心を最大化する強化学習 by TwoMinutesPaper
https://www.youtube.com/watch?v=9S2g7iixB9c&vl=en
逆強化学習とGAN by 松尾研
https://www.slideshare.net/DeepLearningJP2016/dlgenerative-adversarial-imitation-learning-82875615
#2017/10/11追記
Team AI 強化学習研究会を開催しました。
今日はインド人、大手ポータルサイト、大手IT企業の方々交え、
初心者にとってどうやって強化学習の実装を学んでいけば良いのか議論しました。小川さんから、非常にわかりやすいQ-Learningの解説もありました。
エージェントが、状態(S)から行動(A)を起こし、報酬(R)や罰則(P)を受けて学習を進めていく基本コンセプトをわかっている人は比較的多いとは思うのですが、
いざそれを実装するとなると思考停止になってしまいますよね?
今日の結論は、まずは下記の小川さんのチュートリアルでOpen AI GymのCartPole(棒立て)にチャレンジし、徐々に複雑なものに適用すれば良いのではないかという結論になりました。ゲームAIは相当ハードルが高いです。
また、下記UCバークレーの強化学習シリーズでも語られている様に、まだビジネス上の問題解決に使われている技術ではないので、非常にエキサイティングで進化の速い領域であると同時に、初学者にとっての学習ロードマップが存在しないことも課題だと思いました。深層学習のCNNの様にビジネスアプリケーションが多数存在する技術ならそこから逆算して学べばいいのですが、強化学習は学習そのものが目的になりやすいので、Team AIとしても何とかしたいと思いました。
トピック:
コミュニティメンバー小川さんの強化学習実装チュートリアル(棒立て)
https://qiita.com/sugulu/items/bc7c70e6658f204f85f9
UCバークレーの強化学習ブートキャンプ ビデオコース(Aug 2017 ver.)
https://sites.google.com/view/deep-rl-bootcamp/lectures
強化学習実装チュートリアルシリーズ
https://medium.com/…/simple-reinforcement-learning-with-ten…
Open AI Gymの使い方チュートリアル
https://www.oreilly.com/…/introduction-to-reinforcement-lea…
PFNの強化学習ライブラリChainerRL
https://research.preferred.jp/2017/02/chainerrl/
Andrej Karpathy Blog (TeslaのAIディレクター)
http://karpathy.github.io/2016/05/31/rl/
Sutton教授の強化学習本(定番)
https://www.amazon.co.jp/…/4627826613/ref=la_B004LSYBGG_1_1…
Chess AIの作り方チュートリアル
https://medium.freecodecamp.org/simple-chess-ai-step-by-ste…
強化学習の応用成功事例集
http://umichrl.pbworks.com/…/Successes%20of%20Reinforcement…
東大 高橋先生の本がすごい
メカ屋のための脳科学入門
https://goo.gl/S23Jyf