本記事はこちらのブログを参考にしています。
翻訳にはアリババクラウドのModelStudio(Qwen)を使用しております。
Alibaba CloudがQwQ-32Bを発表: コンパクトな推論モデルで最先端のパフォーマンスを実現
Alibaba Cloudは、わずか320億のパラメータを持つコンパクトな推論モデル「QwQ-32B」を導入しました。このモデルは、他のより大規模な最先端モデルと同等のパフォーマンスを提供します。最新の大規模言語モデルであるQwen2.5-32B(同様に320億のパラメータを持つ)に基づいて構築されたQwQ-32Bは、AIME 24(数学的推論)、Live CodeBench(コーディング能力)、LiveBench(テストセット汚染および客観的評価)、IFEval(指示遵守能力)、BFCL(ツールや関数呼び出し能力)など、さまざまなベンチマークで優れたパフォーマンスを発揮します。
以下の結果は、DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini、そしてオリジナルのDeepSeek-R1を含む他の主要モデルとの比較において、QwQ-32Bのパフォーマンスを強調しています。
強化学習のスケーリングによる推論能力の向上
QwQ-32Bの卓越したパフォーマンスは、モデルの背後にある中心的な技術である強化学習(RL)の力を示しています。この技術は、広範な世界知識に基づいて事前学習された堅牢な基盤モデルであるQwen2.5-32Bに適用されました。継続的なRLスケーリングを活用することで、QwQ-32Bは数学的推論とコーディング能力において大幅な改善を示しました。さらに、このモデルは一般的な報酬モデルとルールベースの検証システムを使用して訓練され、その汎用能力が向上しました。これには、より良い指示遵守、人間の好みとの整合性、エージェント性能の向上が含まれます。
エージェント機能の統合による高度な推論
研究チームはまた、QwQ-32Bにエージェント関連の機能を統合し、批判的に考え、ツールを効果的に利用し、環境からのフィードバックに基づいて推論を適応させる能力を持たせました。チームはさらに、エージェントとRLのさらなる統合を探求しており、推論時のスケーリングを通じてさらに高い知能を引き出すことを目指しています。
QwQ-32Bは現在、Hugging FaceとModel ScopeにてApache 2.0ライセンスのもとオープンソースモデルとして公開されており、無料でダウンロード可能です。また、Qwen Chatでも利用できます。展開コストが大幅に削減されているため、消費者向けハードウェア上でも効率的に展開可能です。
QwQ-32Bについての詳細はこちらをご覧ください:QwQ-32B: Embracing the Power of Reinforcement Learning.
この記事はもともとAlizilaにてCrystal Liuによって書かれました。