LLMの強化学習 GRPO(Group Relative Policy Optimization)の高速化
はじめに 本記事は松尾研LLM開発コンペ2025に参加し、チームcaminoで実施したLLMの強化学習手法であるGRPO(Group Relative Policy Optimization)の...
8
3
Comment0
1 search resultsShowing 1~1 results
You need to log-in
はじめに 本記事は松尾研LLM開発コンペ2025に参加し、チームcaminoで実施したLLMの強化学習手法であるGRPO(Group Relative Policy Optimization)の...
1 search resultsShowing 1~1 results
Qiita is a knowledge sharing service for engineers.