tag:qiita.com,2005:/yuishihara/feed
yuishiharaの記事 - Qiita
Qiitaでユーザーyuishiharaによる最近の記事
2019-12-22T07:00:39+09:00
https://qiita.com/yuishihara
tag:qiita.com,2005:PublicArticle/1087014
2019-12-22T07:00:39+09:00
2019-12-22T07:00:39+09:00
https://qiita.com/yuishihara/items/d8e493c4aae5602193cb
最適制御と強化学習のつながりを理解する
はじめに
近年の深層学習のブームに乗っかる形で、DQNに代表されるような深層強化学習手法が話題になっています。
下の、DQN(もしくはAtariをプレイするAIの映像)などを見て、強化学習すごそう!…
yuishihara
tag:qiita.com,2005:PublicArticle/964004
2019-07-12T23:37:52+09:00
2019-07-13T01:40:26+09:00
https://qiita.com/yuishihara/items/8bb594ce78725f056fad
mujocoのタスクで最高クラスの性能を誇るTD3をchainerで実装する
TD3って何?
TD3(Twin Delayed Deep Deterministic policy gradient)は2018年10月時点で他の強化学習アルゴリズムと比べて
mujocoの複数の…
yuishihara
tag:qiita.com,2005:PublicArticle/957853
2019-07-08T00:43:35+09:00
2019-07-08T21:52:45+09:00
https://qiita.com/yuishihara/items/8252af064c2b316d782b
今更だけどProximal Policy Optimization(PPO)でAtariのゲームを学習する
はじめに
深層強化学習アルゴリズムの一つであるProximal Policy Optimization(通称PPO)をchainerを使って実装してみましたので、紹介します。
PPOの実装はchai…
yuishihara
tag:qiita.com,2005:PublicArticle/679682
2018-08-16T18:14:29+09:00
2018-08-16T18:16:39+09:00
https://qiita.com/yuishihara/items/2782a76affb5fa574349
DeepLearningの学習経過をslackで受け取れるようにする
モチベーション
DeepLearningの学習って結構時間がかかりますよね? (数時間とか、ヘタしたら数日とか・・・)
手元のPCで学習が回っていて常に状況を確認できるならともかく、リモートのPCで…
yuishihara