tag:qiita.com,2005:/YuriCat/feed
YuriCatの記事 - Qiita
QiitaでユーザーYuriCatによる最近の記事
2022-12-04T14:48:43+09:00
https://qiita.com/YuriCat
tag:qiita.com,2005:PublicArticle/1650499
2022-12-04T14:48:43+09:00
2022-12-13T14:24:14+09:00
https://qiita.com/YuriCat/items/62d8bc99df88b49b24f6
選択バイアスのない1-action KL正則化
問題設定
強化学習の方策の急峻化を防ぐため、過去のエピソード内の方策(挙動方策)とのカルバック・ライブラー(KL)情報量ロスを加え、学習をゆっくり進める。
このとき方策全体ではなく選んだ行動の選択確…
YuriCat
tag:qiita.com,2005:PublicArticle/1381955
2021-01-24T08:00:10+09:00
2022-04-24T21:14:42+09:00
https://qiita.com/YuriCat/items/765045f0ccf21ce8b58e
DeepSpeedのインストール&ZeRO-Offload利用法
巨大なニューラルネットを学習するZeRO-Offloadと、それを含むDeepSpeedライブラリが話題だったので使ってみました。(2021/1/24時点)
本家ドキュメント https://www…
YuriCat
tag:qiita.com,2005:PublicArticle/1354229
2020-12-09T22:53:22+09:00
2021-06-22T12:55:12+09:00
https://qiita.com/YuriCat/items/5c2a676a67981ecca94a
オフポリシー強化学習のすゝめ
前書き
強化学習を使ってみよう!という方がオンポリシーのアルゴリズムに頼って、良い結果が出ずに終わっているのを見かけるので、オフポリシー学習もイイぞ!と伝えたいと思いました。
(2021/6/22:…
YuriCat
tag:qiita.com,2005:PublicArticle/1313057
2020-10-03T00:12:32+09:00
2020-10-03T06:00:41+09:00
https://qiita.com/YuriCat/items/494cd0b4223103cfc373
無限反復を含むパズル/ゲームをCoqで定義する
Coq、もっと言えば数学的にパズルやゲーム等を扱う上で無限反復の難しさがあります。
Coqでは再帰関数として停止性が明らかなものしか認められないという制限があるためです。[^1]
[^1]: Fun…
YuriCat