YuriCatの記事

tag:qiita.com,2005:/YuriCat/feed YuriCatの記事 - Qiita QiitaでユーザーYuriCatによる最近の記事 2022-12-04T14:48:43+09:00 https://qiita.com/YuriCat tag:qiita.com,2005:PublicArticle/1650499 2022-12-04T14:48:43+09:00 2022-12-13T14:24:14+09:00 https://qiita.com/YuriCat/items/62d8bc99df88b49b24f6 選択バイアスのない1-action KL正則化問題設定強化学習の方策の急峻化を防ぐため、過去のエピソード内の方策（挙動方策）とのカルバック・ライブラー(KL)情報量ロスを加え、学習をゆっくり進める。このとき方策全体ではなく選んだ行動の選択確率のみ得られているとき、どんなロスを使うか？の話。結論選ばれた行動 ... YuriCat tag:qiita.com,2005:PublicArticle/1381955 2021-01-24T08:00:10+09:00 2022-04-24T21:14:42+09:00 https://qiita.com/YuriCat/items/765045f0ccf21ce8b58e DeepSpeedのインストール&ZeRO-Offload利用法巨大なニューラルネットを学習するZeRO-Offloadと、それを含むDeepSpeedライブラリが話題だったので使ってみました。(2021/1/24時点) 本家ドキュメント https://www.deepspeed.ai/getting-started/ インストール... YuriCat tag:qiita.com,2005:PublicArticle/1354229 2020-12-09T22:53:22+09:00 2021-06-22T12:55:12+09:00 https://qiita.com/YuriCat/items/5c2a676a67981ecca94a オフポリシー強化学習のすゝめ前書き強化学習を使ってみよう！という方がオンポリシーのアルゴリズムに頼って、良い結果が出ずに終わっているのを見かけるので、オフポリシー学習もイイぞ！と伝えたいと思いました。（2021/6/22：PPOをオンポリシー、と記載していましたが、これを訂正し、解説を最後に追記... YuriCat tag:qiita.com,2005:PublicArticle/1313057 2020-10-03T00:12:32+09:00 2020-10-03T06:00:41+09:00 https://qiita.com/YuriCat/items/494cd0b4223103cfc373 無限反復を含むパズル/ゲームをCoqで定義する Coq、もっと言えば数学的にパズルやゲーム等を扱う上で無限反復の難しさがあります。 Coqでは再帰関数として停止性が明らかなものしか認められないという制限があるためです。1 しかし一方で現実で扱う問題には無限反復は日常的にあります。迷路では通ったところを繰り返しぐるぐる回... YuriCat