yuishiharaの記事

tag:qiita.com,2005:/yuishihara/feed yuishiharaの記事 - Qiita Qiitaでユーザーyuishiharaによる最近の記事 2019-12-22T07:00:39+09:00 https://qiita.com/yuishihara tag:qiita.com,2005:PublicArticle/1087014 2019-12-22T07:00:39+09:00 2019-12-22T07:00:39+09:00 https://qiita.com/yuishihara/items/d8e493c4aae5602193cb 最適制御と強化学習のつながりを理解するはじめに近年の深層学習のブームに乗っかる形で、DQNに代表されるような深層強化学習手法が話題になっています。下の、DQN（もしくはAtariをプレイするAIの映像）などを見て、強化学習すごそう！なんか面白そう！と思って勉強を始めた方も多いのではないでしょうか？ち... yuishihara tag:qiita.com,2005:PublicArticle/964004 2019-07-12T23:37:52+09:00 2019-07-13T01:40:26+09:00 https://qiita.com/yuishihara/items/8bb594ce78725f056fad mujocoのタスクで最高クラスの性能を誇るTD3をchainerで実装する TD3って何? TD3(Twin Delayed Deep Deterministic policy gradient)は2018年10月時点で他の強化学習アルゴリズムと比べて mujocoの複数のタスクで圧倒的な性能を叩きだした強化学習アルゴリズムです。本記事ではTD... yuishihara tag:qiita.com,2005:PublicArticle/957853 2019-07-08T00:43:35+09:00 2019-07-08T21:52:45+09:00 https://qiita.com/yuishihara/items/8252af064c2b316d782b 今更だけどProximal Policy Optimization(PPO)でAtariのゲームを学習するはじめに深層強化学習アルゴリズムの一つであるProximal Policy Optimization(通称PPO)をchainerを使って実装してみましたので、紹介します。 PPOの実装はchainerrlを始め、qiitaにも記事はたくさんあるので、何を今更感しかない... yuishihara tag:qiita.com,2005:PublicArticle/679682 2018-08-16T18:14:29+09:00 2018-08-16T18:16:39+09:00 https://qiita.com/yuishihara/items/2782a76affb5fa574349 DeepLearningの学習経過をslackで受け取れるようにするモチベーション DeepLearningの学習って結構時間がかかりますよね? (数時間とか、ヘタしたら数日とか・・・) 手元のPCで学習が回っていて常に状況を確認できるならともかく、リモートのPCで学習は回っていたり、大体時間がかかるからってどっかに出掛けてみたりするじゃ... yuishihara