Search result of “user:yuichiro_2023” - Qiita

1 search resultsShowing 1~1 results

@yuichiro_2023in松尾研AIコミュニティ

2025/10/09

LLMの強化学習 GRPO(Group Relative Policy Optimization)の高速化

はじめに本記事は松尾研LLM開発コンペ2025に参加し、チームcaminoで実施したLLMの強化学習手法であるGRPO(Group Relative Policy Optimization)の...

8

3

Comment0

1 search resultsShowing 1~1 results

Qiita is a knowledge sharing service for engineers.

You can follow users and tags
You can stock useful information
You can make edit suggestions for articles

Functions that can be used after logging in