はじめに
2026年4月8日、Metaは「Muse Spark」を発表しました。Meta Superintelligence Labs(MSL)が手がけた初のモデルであり、Llama系のオープンソース路線から離れた初のプロプライエタリモデルです。
この記事では、公式発表と独立評価機関(Artificial Analysis)のデータをもとに、Muse Sparkのベンチマーク・特徴的な「Contemplating mode」・現在のアクセス方法・他モデルとの使い分けを解説します。
この記事で学べること
- Meta Muse Sparkの背景と戦略的意味
- 主要ベンチマークにおける強みと弱み
- Contemplating mode(マルチエージェント並列推論)の仕組み
- 現在のアクセス方法とAPI提供状況
- GPT-5.4・Claude Opus 4.6・Gemini 3.1 Proとの使い分け指針
対象読者
- 最新のLLMトレンドを追いたいエンジニア
- LLM選定・モデル比較に携わる開発者
- Meta AIの戦略変化に関心のある方
TL;DR
- Muse SparkはMetaが2026年4月8日にリリースした初のプロプライエタリLLM
- Alexandr Wang(元Scale AI CEO)率いるMeta Superintelligence Labs(MSL)が開発
- **HealthBench Hardでフロンティアモデル中1位(42.8)**を達成
- 総合スコアはIntelligence Index 52(4位 / GPT-5.4: 57、Claude Opus 4.6: 53)
- コーディング・エージェントタスクは現状他モデルに劣る
- 「Contemplating mode」(マルチエージェント並列推論)でHLEスコアをリード
- 現在は限定プレビューAPI + Meta AIアプリから無料アクセス可能
Muse Sparkとは
Meta Superintelligence Labsの設立経緯
Muse SparkはMetaの新組織「Meta Superintelligence Labs(MSL)」が開発した初のモデルです。MSLの設立は2025年後半にさかのぼります。Llama 4が期待を下回る結果に終わり、Mark ZuckerbergがAI部門を抜本的に再編したことが契機です。
2026年初頭、MetaはScale AIの49%株式を143億ドルで取得し、Scale AI CEOだったAlexandr WangをMSLの責任者として招聘しました1。
オープンソースからの方針転換
Metaはこれまで、LlamaシリーズをMITライセンスで公開するオープンソース戦略を採ってきました。Muse Sparkはこの路線を変え、クローズドソースとして提供されます。公式発表では「将来バージョンのオープンソース化を希望」と述べており、完全な閉鎖路線ではないものの、業界への影響は大きいと見られています2。
ビジョン: Personal Superintelligence
Zuckerbergが掲げるビジョンは「Personal Superintelligence」です。すべての人が自分専用のAIエージェントを持ち、思考・計画・コミュニケーション・行動を代行させる世界を目指しています。Muse SparkはそのPhase 1に位置づけられます。
ベンチマーク詳細
Artificial Analysis Intelligence Index v4.0(2026年4月時点)を主要データとして整理します3。
総合スコア: Artificial Analysis Intelligence Index
| モデル | Intelligence Index | 順位 |
|---|---|---|
| GPT-5.4 | 57 | 1位タイ |
| Gemini 3.1 Pro | 57 | 1位タイ |
| Claude Opus 4.6 | 53 | 3位 |
| Muse Spark | 52 | 4位 |
総合スコアは4位と控えめですが、特定ベンチマークでは首位を獲得しています。
HealthBench Hard: 最大の強み
医療・ヘルスケア分野のベンチマーク「HealthBench Hard」では、フロンティアモデル中1位を記録しました。
| モデル | HealthBench Hard |
|---|---|
| Muse Spark | 42.8 |
| GPT-5.4 | 40.1 |
| Grok 4.2 | 20.3 |
| Gemini 3.1 Pro | 20.6 |
医療情報の正確性・安全性が求められる用途での優位性は明確です。
マルチモーダルビジョン: MMMU-Pro
マルチモーダル推論ベンチマーク(MMMU-Pro)では80.5%を記録し、フロンティアモデル中2位に位置します。テキスト・画像・音声のネイティブ対応と組み合わせ、視覚理解タスクにも強みがあります。
ARC-AGI-2: 抽象推論の課題
抽象的な問題解決能力を測るARC-AGI-2では、他モデルとの差が際立ちます。
| モデル | ARC-AGI-2 |
|---|---|
| Gemini 3.1 Pro | 76.5 |
| GPT-5.4 | 76.1 |
| Muse Spark | 42.5 |
約34ポイントの差があり、新しいパターンへの汎化能力では現時点で劣位です。
GDPval-AA: エージェントタスク
実際のデスクトップ・業務タスク遂行能力を測るGDPval-AA(ELO形式)は以下の通りです(2026年4月8日時点、Artificial Analysis)。
| モデル | GDPval-AA ELO |
|---|---|
| GPT-5.4 | 1,674 |
| Claude Opus 4.6 | 1,607 |
| Claude Sonnet 4.6 | 1,648 |
| Muse Spark | 1,444 |
| Gemini 3.1 Pro Preview | 1,320 |
GPT-5.4から230ポイント差があるものの、Gemini 3.1 Proよりは高い水準です。
Terminal-Bench 2.0: コーディング
コーディング性能の指標となるTerminal-Bench 2.0では、他モデルとの差が顕著です。
| モデル | Terminal-Bench 2.0 |
|---|---|
| GPT-5.4 | 75.1 |
| Gemini 3.1 Pro | 68.5 |
| Muse Spark | 59.0 |
コーディングアシスタントやコードレビュー用途では、現時点でClaude Opus 4.6またはGPT-5.4を選ぶ方が実用的です。
トークン効率: 隠れた優位性
Artificial Analysisの評価では、Muse Sparkは全評価を通じて58Mの出力トークンで完了しています。これは他モデルと比べ顕著に効率的です。
| モデル | 評価消費トークン |
|---|---|
| Claude Opus 4.6 | 157M |
| GPT-5.4 | 120M |
| Gemini 3.1 Pro | 57M |
| Muse Spark | 58M |
APIコストが発表された際、この効率性は価格競争力につながる可能性があります。
Contemplating mode とは
Muse Sparkの独自機能「Contemplating mode」は、マルチエージェント並列推論を実行するモードです。複数の思考プロセスを並列に走らせ、最終回答を統合します。
Humanity's Last Exam(HLE)での成果
非常に高難度な知識・推論問題を問うHLEにおいて、Contemplating modeを有効にしたMuse SparkはGPT-5.4とGemini 3.1 Proをスコアで上回っています4。
使いどころ
Contemplating modeは推論コスト(レイテンシ・トークン)が増加します。公式ドキュメントによると以下の用途が想定されています。
- 複雑な医療診断・研究文献の総合分析
- 多段階推論を要する数学・科学問題
- 複数の視点から検討が必要なリサーチタスク
日常的なコーディング補助や短文生成では通常モードが推奨されています。
アクセス方法
Meta AIアプリ(無料)
Meta AIアプリ(iOS・Android・Web)から、現在無料でMuse Sparkにアクセスできます。Facebook・Instagram・WhatsApp・Messengerとの統合も進んでいます。
API(限定プレビュー)
2026年4月時点では、選定パートナーへの限定プレビューAPIとして提供中です。一般向けAPIの公開時期・料金はMeta公式から未発表です。
Artificial AnalysisによるとAPIプロバイダーによるベンチマークはゼロのため、外部からの独立した測定は評価時点ではできていません3。
今後の展望
- 公開API提供時期: 未定(Meta公式未発表)
- オープンソース化: 「将来バージョンで希望」と表明
- コンテキストウィンドウ: Metaは未公式発表(公式確認待ち)
用途別モデル選択ガイド
| 用途 | 推奨モデル | 理由 |
|---|---|---|
| 医療・ヘルスケア情報 | Muse Spark | HealthBench Hard 首位(42.8) |
| 高難度推論(HLE水準) | Muse Spark(Contemplating mode) | HLEスコアでGPT-5.4・Geminiを上回る |
| マルチモーダル視覚タスク | Gemini 3.1 Pro / Muse Spark | 両者ともに高いMMMA-Pro |
| コーディング・PR自動化 | GPT-5.4 / Claude Opus 4.6 | Terminal-Bench 2.0で16ポイント差 |
| エージェント型業務タスク | GPT-5.4 / Claude Opus 4.6 | GDPval-AA で230ポイント差 |
| 抽象的パターン推論 | GPT-5.4 / Gemini 3.1 Pro | ARC-AGI-2で34ポイント差 |
| コスト効率重視 | Muse Spark(API公開後) | 58Mトークン効率で最安クラスの可能性 |
まとめ
Muse Sparkは「MetaがAI競争に本気で戻ってきた」ことを示す重要なリリースです。
強みのまとめ
- HealthBench Hardで世界1位: 医療・ヘルスケア用途での信頼性
- Contemplating modeでHLE首位: 高難度推論での多段推論能力
- 高いトークン効率: API公開後のコストメリットに期待
- マルチモーダル: テキスト・画像・音声のネイティブ統合
現在の限界
- コーディング・エージェントタスクでは先行モデルに及ばない
- ARC-AGI-2(抽象推論)に34ポイント以上の差がある
- 公開APIは未提供(限定パートナー向けプレビューのみ)
今後の注目点
APIの一般公開が実現すると、トークン効率の高さからコスト競争力が生まれる可能性があります。また、MSLが今後どのようなモデル(Muse Spark 2など)をリリースするかが注目点です。オープンソース化の動向も、開発者にとって重要なシグナルとなります。
参考リンク
- Introducing Muse Spark: Scaling Towards Personal Superintelligence - Meta AI
- Muse Spark: Meta is back in the AI race - Artificial Analysis
- Meta debuts the Muse Spark model - TechCrunch
- Meta debuts first major AI model since $14 billion deal - CNBC
- So long, Llama: Meta unveils Muse Spark AI with Contemplating mode - 9to5Mac
-
Meta debuts first major AI model since $14 billion deal to bring in Alexandr Wang - CNBC(2026-04-08) ↩
-
Meta debuts the Muse Spark model in a 'ground-up overhaul' of its AI - TechCrunch(2026-04-08) ↩
-
Muse Spark: Meta is back in the AI race - Artificial Analysis(2026-04-08) ↩ ↩2
-
So long, Llama: Meta unveils Muse Spark AI with new Contemplating mode - 9to5Mac(2026-04-08) ↩