Meta Muse Spark入門 — HealthBench首位・Contemplating modeの全貌ガイド

Last updated at 2026-06-12Posted at 2026-06-12

はじめに

2026年4月8日、Metaは「Muse Spark」を発表しました。Meta Superintelligence Labs（MSL）が手がけた初のモデルであり、Llama系のオープンソース路線から離れた初のプロプライエタリモデルです。

この記事では、公式発表と独立評価機関（Artificial Analysis）のデータをもとに、Muse Sparkのベンチマーク・特徴的な「Contemplating mode」・現在のアクセス方法・他モデルとの使い分けを解説します。

この記事で学べること

Meta Muse Sparkの背景と戦略的意味
主要ベンチマークにおける強みと弱み
Contemplating mode（マルチエージェント並列推論）の仕組み
現在のアクセス方法とAPI提供状況
GPT-5.4・Claude Opus 4.6・Gemini 3.1 Proとの使い分け指針

対象読者

最新のLLMトレンドを追いたいエンジニア
LLM選定・モデル比較に携わる開発者
Meta AIの戦略変化に関心のある方

TL;DR

Muse SparkはMetaが2026年4月8日にリリースした初のプロプライエタリLLM
Alexandr Wang（元Scale AI CEO）率いるMeta Superintelligence Labs（MSL）が開発
**HealthBench Hardでフロンティアモデル中1位（42.8）**を達成
総合スコアはIntelligence Index 52（4位 / GPT-5.4: 57、Claude Opus 4.6: 53）
コーディング・エージェントタスクは現状他モデルに劣る
「Contemplating mode」（マルチエージェント並列推論）でHLEスコアをリード
現在は限定プレビューAPI + Meta AIアプリから無料アクセス可能

Muse Sparkとは

Meta Superintelligence Labsの設立経緯

Muse SparkはMetaの新組織「Meta Superintelligence Labs（MSL）」が開発した初のモデルです。MSLの設立は2025年後半にさかのぼります。Llama 4が期待を下回る結果に終わり、Mark ZuckerbergがAI部門を抜本的に再編したことが契機です。

2026年初頭、MetaはScale AIの49%株式を143億ドルで取得し、Scale AI CEOだったAlexandr WangをMSLの責任者として招聘しました¹。

オープンソースからの方針転換

Metaはこれまで、LlamaシリーズをMITライセンスで公開するオープンソース戦略を採ってきました。Muse Sparkはこの路線を変え、クローズドソースとして提供されます。公式発表では「将来バージョンのオープンソース化を希望」と述べており、完全な閉鎖路線ではないものの、業界への影響は大きいと見られています²。

ビジョン: Personal Superintelligence

Zuckerbergが掲げるビジョンは「Personal Superintelligence」です。すべての人が自分専用のAIエージェントを持ち、思考・計画・コミュニケーション・行動を代行させる世界を目指しています。Muse SparkはそのPhase 1に位置づけられます。

ベンチマーク詳細

Artificial Analysis Intelligence Index v4.0（2026年4月時点）を主要データとして整理します³。

総合スコア: Artificial Analysis Intelligence Index

モデル	Intelligence Index	順位
GPT-5.4	57	1位タイ
Gemini 3.1 Pro	57	1位タイ
Claude Opus 4.6	53	3位
Muse Spark	52	4位

総合スコアは4位と控えめですが、特定ベンチマークでは首位を獲得しています。

HealthBench Hard: 最大の強み

医療・ヘルスケア分野のベンチマーク「HealthBench Hard」では、フロンティアモデル中1位を記録しました。

モデル	HealthBench Hard
Muse Spark	42.8
GPT-5.4	40.1
Grok 4.2	20.3
Gemini 3.1 Pro	20.6

医療情報の正確性・安全性が求められる用途での優位性は明確です。

マルチモーダルビジョン: MMMU-Pro

マルチモーダル推論ベンチマーク（MMMU-Pro）では80.5%を記録し、フロンティアモデル中2位に位置します。テキスト・画像・音声のネイティブ対応と組み合わせ、視覚理解タスクにも強みがあります。

ARC-AGI-2: 抽象推論の課題

抽象的な問題解決能力を測るARC-AGI-2では、他モデルとの差が際立ちます。

モデル	ARC-AGI-2
Gemini 3.1 Pro	76.5
GPT-5.4	76.1
Muse Spark	42.5

約34ポイントの差があり、新しいパターンへの汎化能力では現時点で劣位です。

GDPval-AA: エージェントタスク

実際のデスクトップ・業務タスク遂行能力を測るGDPval-AA（ELO形式）は以下の通りです（2026年4月8日時点、Artificial Analysis）。

モデル	GDPval-AA ELO
GPT-5.4	1,674
Claude Opus 4.6	1,607
Claude Sonnet 4.6	1,648
Muse Spark	1,444
Gemini 3.1 Pro Preview	1,320

GPT-5.4から230ポイント差があるものの、Gemini 3.1 Proよりは高い水準です。

Terminal-Bench 2.0: コーディング

コーディング性能の指標となるTerminal-Bench 2.0では、他モデルとの差が顕著です。

モデル	Terminal-Bench 2.0
GPT-5.4	75.1
Gemini 3.1 Pro	68.5
Muse Spark	59.0

コーディングアシスタントやコードレビュー用途では、現時点でClaude Opus 4.6またはGPT-5.4を選ぶ方が実用的です。

トークン効率: 隠れた優位性

Artificial Analysisの評価では、Muse Sparkは全評価を通じて58Mの出力トークンで完了しています。これは他モデルと比べ顕著に効率的です。

モデル	評価消費トークン
Claude Opus 4.6	157M
GPT-5.4	120M
Gemini 3.1 Pro	57M
Muse Spark	58M

APIコストが発表された際、この効率性は価格競争力につながる可能性があります。

Contemplating mode とは

Muse Sparkの独自機能「Contemplating mode」は、マルチエージェント並列推論を実行するモードです。複数の思考プロセスを並列に走らせ、最終回答を統合します。

Humanity's Last Exam（HLE）での成果

非常に高難度な知識・推論問題を問うHLEにおいて、Contemplating modeを有効にしたMuse SparkはGPT-5.4とGemini 3.1 Proをスコアで上回っています⁴。

使いどころ

Contemplating modeは推論コスト（レイテンシ・トークン）が増加します。公式ドキュメントによると以下の用途が想定されています。

複雑な医療診断・研究文献の総合分析
多段階推論を要する数学・科学問題
複数の視点から検討が必要なリサーチタスク

日常的なコーディング補助や短文生成では通常モードが推奨されています。

アクセス方法

Meta AIアプリ（無料）

Meta AIアプリ（iOS・Android・Web）から、現在無料でMuse Sparkにアクセスできます。Facebook・Instagram・WhatsApp・Messengerとの統合も進んでいます。

API（限定プレビュー）

2026年4月時点では、選定パートナーへの限定プレビューAPIとして提供中です。一般向けAPIの公開時期・料金はMeta公式から未発表です。

Artificial AnalysisによるとAPIプロバイダーによるベンチマークはゼロのため、外部からの独立した測定は評価時点ではできていません³。

今後の展望

公開API提供時期: 未定（Meta公式未発表）
オープンソース化: 「将来バージョンで希望」と表明
コンテキストウィンドウ: Metaは未公式発表（公式確認待ち）

用途別モデル選択ガイド

用途	推奨モデル	理由
医療・ヘルスケア情報	Muse Spark	HealthBench Hard 首位（42.8）
高難度推論（HLE水準）	Muse Spark（Contemplating mode）	HLEスコアでGPT-5.4・Geminiを上回る
マルチモーダル視覚タスク	Gemini 3.1 Pro / Muse Spark	両者ともに高いMMMA-Pro
コーディング・PR自動化	GPT-5.4 / Claude Opus 4.6	Terminal-Bench 2.0で16ポイント差
エージェント型業務タスク	GPT-5.4 / Claude Opus 4.6	GDPval-AA で230ポイント差
抽象的パターン推論	GPT-5.4 / Gemini 3.1 Pro	ARC-AGI-2で34ポイント差
コスト効率重視	Muse Spark（API公開後）	58Mトークン効率で最安クラスの可能性

まとめ

Muse Sparkは「MetaがAI競争に本気で戻ってきた」ことを示す重要なリリースです。

強みのまとめ

HealthBench Hardで世界1位: 医療・ヘルスケア用途での信頼性
Contemplating modeでHLE首位: 高難度推論での多段推論能力
高いトークン効率: API公開後のコストメリットに期待
マルチモーダル: テキスト・画像・音声のネイティブ統合

現在の限界

コーディング・エージェントタスクでは先行モデルに及ばない
ARC-AGI-2（抽象推論）に34ポイント以上の差がある
公開APIは未提供（限定パートナー向けプレビューのみ）

今後の注目点

APIの一般公開が実現すると、トークン効率の高さからコスト競争力が生まれる可能性があります。また、MSLが今後どのようなモデル（Muse Spark 2など）をリリースするかが注目点です。オープンソース化の動向も、開発者にとって重要なシグナルとなります。

参考リンク

Meta debuts first major AI model since $14 billion deal to bring in Alexandr Wang - CNBC（2026-04-08） ↩
Meta debuts the Muse Spark model in a 'ground-up overhaul' of its AI - TechCrunch（2026-04-08） ↩
Muse Spark: Meta is back in the AI race - Artificial Analysis（2026-04-08） ↩ ↩²
So long, Llama: Meta unveils Muse Spark AI with new Contemplating mode - 9to5Mac（2026-04-08） ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up