【arXiv】10Bで100B超えを凌駕？StepFunの最新マルチモーダルLLM「STEP3-VL-10B」が凄い

Last updated at 2026-01-17Posted at 2026-01-17

はじめに

2026年1月第2週のarXiv Weekly Digestから、特に注目すべきLLM関連論文を紹介します。
今回ピックアップしたのは、StepFun（階躍星辰）が発表したSTEP3-VL-10Bのテクニカルレポートです。

このモデルの驚くべき点は、わずか10B（100億）パラメータでありながら、100B〜200Bクラスの巨大モデルや、Gemini 2.5 Proといった商用フラグシップモデルに匹敵、あるいは凌駕する性能を叩き出していることです。

論文情報

タイトル: STEP3-VL-10B Technical Report
著者: Multimodal Intelligence Team, StepFun
arXiv ID: 2601.09668
公開日: 2026年1月14日
プロジェクトページ: https://stepfun-ai.github.io/Step3-VL-10B

STEP3-VL-10Bのここが凄い

1. 「コンパクト＝限定的」という常識を覆す性能

従来の10B以下の軽量モデルは「効率的だが能力は限定的」とされてきました。しかし、STEP3-VL-10Bは以下のベンチマークで圧倒的なスコアを記録しています。

ベンチマーク	STEP3-VL-10B	比較対象 (モデルサイズ)
MMMU (マルチモーダル理解)	80.11%	Gemini 2.5 Pro 相当
AIME 2025 (数学)	94.43%	100B超のモデルを凌駕
MathVision (視覚数学)	75.95%	業界トップクラス
MMBench (総合評価)	92.2%	-

2. 完全に「凍結解除」された事前学習

多くのマルチモーダルモデルは、計算コスト削減のためにビジョンエンコーダーを固定（フリーズ）して学習しますが、StepFunは1.2T（1.2兆）トークンのデータセットを用いて、モデル全体をアンフリーズ（凍結解除）した状態で事前学習を行いました。
これにより、視覚と言語の真のシナジー（相乗効果）が生まれ、高い知能を実現しています。

3. テスト時計算量のスケーリング：PaCoRe

OpenAI o1のように「推論時に時間をかけて考える」ことで性能を向上させる手法がトレンドですが、本論文ではPaCoRe (Parallel Coordinated Reasoning) という独自手法を提案しています。

SeRe (Sequential Reasoning): 通常の「思考の連鎖（CoT）」
PaCoRe (Parallel Coordinated Reasoning):
1. 複数の視覚的仮説を並列に生成（Proposer）
2. それらを統合し、矛盾をチェックして最終回答を導き出す（Controller）

この「マルチエージェント的」なアプローチにより、特に空間認識や複雑なカウント、OCRなどの「視覚的知覚」が要求されるタスクで劇的な性能向上（+5%〜+7%以上）が見られました。

技術的なポイント

アーキテクチャ: 1.8BのPerception Encoder + Qwen3-8B Decoder。
強化学習 (RL): 1,000回以上の反復学習。検証可能な報酬（RLVR）と人間によるフィードバック（RLHF）を組み合わせています。
データ戦略: K-12教育、高度なOCR、GUI操作データなど、知識密度の高いデータを厳選。

まとめ

STEP3-VL-10Bは、**「モデルのサイズよりも、設計と学習戦略（特に推論時の計算量スケーリング）が重要である」**ことを証明した非常に興味深いモデルです。
オープンソースとして公開されているため、今後の軽量・高性能モデルのスタンダードになる可能性があります。

マルチモーダルLLMの進化の速さには驚かされるばかりですね。

相談フォーム

参考リンク

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up