はじめに
2026年1月第2週のarXiv Weekly Digestから、特に注目すべきLLM関連論文を紹介します。
今回ピックアップしたのは、StepFun(階躍星辰)が発表したSTEP3-VL-10Bのテクニカルレポートです。
このモデルの驚くべき点は、わずか10B(100億)パラメータでありながら、100B〜200Bクラスの巨大モデルや、Gemini 2.5 Proといった商用フラグシップモデルに匹敵、あるいは凌駕する性能を叩き出していることです。
論文情報
- タイトル: STEP3-VL-10B Technical Report
- 著者: Multimodal Intelligence Team, StepFun
- arXiv ID: 2601.09668
- 公開日: 2026年1月14日
- プロジェクトページ: https://stepfun-ai.github.io/Step3-VL-10B
STEP3-VL-10Bのここが凄い
1. 「コンパクト=限定的」という常識を覆す性能
従来の10B以下の軽量モデルは「効率的だが能力は限定的」とされてきました。しかし、STEP3-VL-10Bは以下のベンチマークで圧倒的なスコアを記録しています。
| ベンチマーク | STEP3-VL-10B | 比較対象 (モデルサイズ) |
|---|---|---|
| MMMU (マルチモーダル理解) | 80.11% | Gemini 2.5 Pro 相当 |
| AIME 2025 (数学) | 94.43% | 100B超のモデルを凌駕 |
| MathVision (視覚数学) | 75.95% | 業界トップクラス |
| MMBench (総合評価) | 92.2% | - |
2. 完全に「凍結解除」された事前学習
多くのマルチモーダルモデルは、計算コスト削減のためにビジョンエンコーダーを固定(フリーズ)して学習しますが、StepFunは1.2T(1.2兆)トークンのデータセットを用いて、モデル全体をアンフリーズ(凍結解除)した状態で事前学習を行いました。
これにより、視覚と言語の真のシナジー(相乗効果)が生まれ、高い知能を実現しています。
3. テスト時計算量のスケーリング:PaCoRe
OpenAI o1のように「推論時に時間をかけて考える」ことで性能を向上させる手法がトレンドですが、本論文ではPaCoRe (Parallel Coordinated Reasoning) という独自手法を提案しています。
- SeRe (Sequential Reasoning): 通常の「思考の連鎖(CoT)」
-
PaCoRe (Parallel Coordinated Reasoning):
- 複数の視覚的仮説を並列に生成(Proposer)
- それらを統合し、矛盾をチェックして最終回答を導き出す(Controller)
この「マルチエージェント的」なアプローチにより、特に空間認識や複雑なカウント、OCRなどの「視覚的知覚」が要求されるタスクで劇的な性能向上(+5%〜+7%以上)が見られました。
技術的なポイント
- アーキテクチャ: 1.8BのPerception Encoder + Qwen3-8B Decoder。
- 強化学習 (RL): 1,000回以上の反復学習。検証可能な報酬(RLVR)と人間によるフィードバック(RLHF)を組み合わせています。
- データ戦略: K-12教育、高度なOCR、GUI操作データなど、知識密度の高いデータを厳選。
まとめ
STEP3-VL-10Bは、**「モデルのサイズよりも、設計と学習戦略(特に推論時の計算量スケーリング)が重要である」**ことを証明した非常に興味深いモデルです。
オープンソースとして公開されているため、今後の軽量・高性能モデルのスタンダードになる可能性があります。
マルチモーダルLLMの進化の速さには驚かされるばかりですね。
相談フォーム
参考リンク