論文情報
- 著者: E Shen, D Tormoen, S Shah, A Farhadi
- 論文概要リンク: https://arxiv.org/abs/2601.20789
- 論文PDFリンク: https://arxiv.org/pdf/2601.20789
要約
SERA (Soft-Verified Efficient Repository Agents) は、オープンウェイトのコードエージェントを効率的にトレーニングし、特定のプライベートコードベースに特化したエージェントを迅速かつ低コストで作成可能にする手法である。従来の強化学習や合成データ生成法に比べて大幅にコストを下げつつ、教師モデルと同等以上の性能を達成する。軟検証(soft verification)を用い、単体テストなしに生成パッチの部分的な重複度で正当性を判断し、膨大なデータ生成を実現。200,000以上の合成軌跡データセットを公開し、リポジトリ専門化の有効性と学習スケーリングを示した。
主要なポイント
- 軟検証(soft verification)により、テスト環境なしでコード修正パッチの部分的重複度を用いてデータの正当性を評価。これによりどのリポジトリからでも大規模データ生成が可能に。
- 教師モデルを用いた2段階のロールアウト手法 (Soft Verified Generation, SVG) で高品質な合成データを生成し、低コストでの大規模学習を実現。
- SERAは既存の強化学習や合成データ生成手法に比べて26倍以上、57倍以上のコスト効率を発揮し、教師モデルと同等の性能を示す。
- プライベートリポジトリに特化した微調整で教師モデルを凌駕し、特定のコードベースに最適化された小型モデルの作成が低コストで可能。
- 32Bパラメータ規模でSWE-bench Verifiedにおいてオープンソースモデルとして最高水準を達成。トレーニングには40GPU日、約2,000ドルのコストで実現。
メソッド
- Soft Verified Generation (SVG): 2回のロールアウトを利用したデータ生成手法。
- 1回目のロールアウト:教師モデルに対し、ランダム選択した関数とバグタイプの曖昧な指示を与え、パッチ(修正差分)付きの軌跡を生成。
- 軌跡から合成プルリクエスト(PR)を作成。
- 2回目のロールアウト:教師モデルに合成PRの説明のみを入力し、元のパッチを再現させる。
- 2つのパッチを行単位で比較し、部分的に重複が閾値以上あれば軟検証として合格。
- 軟検証の特徴:単体テストを実行せずとも、2つのロールアウトで生成された変更の重複度を用いて検証。これによりテスト環境構築の必要がなく、検証性の高いデータ生成が容易に。
- 微調整:Qwen 3-32Bモデルをベースに、32Kトークンまでの軌跡を用いて3エポックの監督あり微調整を実施。トレーニングデータのトランケーション(切り捨て)比率を考慮し、品質を維持。
- 教師モデル:GLM-4.5-AirおよびGLM-4.6を用いて生成。オープンウェイトかつ大きな推論コンテキストに対応し、中間生成にはClaude Sonnet系を使用。
- 評価基準:SWE-bench Verifiedを用い、実際のGitHubイシューとプルリクから得られた問題解決能力を測定。
意義・影響
- 研究コミュニティへの貢献:複雑な強化学習や高度なテスト環境不要で、限られたリソースの研究者でも高性能コードエージェントを開発可能にし、オープンサイエンスを推進。
- プライベートコードベース特化:プライバシー保護が必要な企業や個人が、自身のコードベースで専用エージェントを低コストに構築でき、クラウド転送不要の安全な運用が可能。
- オープンソースコードエージェントの優位性を示し、閉源モデルに依存しない研究や製品開発の促進に寄与。
- 大規模合成データ生成技術の革新により、高品質なコード修正学習データの大量生産が可能となり、ソフトウェア開発支援AIの性能向上に資する。
- 今後の方向性として、より大規模なデータ量投入や強化学習との融合による性能向上も期待されるが、現状の低コスト・高性能化は多くの現場に新たな可能性を提供。
まとめると、SERAは軟検証を基盤とした大規模合成データ生成フレームワークにより、低コストで教師モデル同等の性能を持つリポジトリ特化型コードエージェントの実用的展開を可能にし、今後のAI駆動ソフトウェア開発の重要な礎となる研究成果である。