1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Meta Muse Spark入門 — HealthBench首位・Contemplating modeの全貌ガイド

1
Last updated at Posted at 2026-06-12

はじめに

2026年4月8日、Metaは「Muse Spark」を発表しました。Meta Superintelligence Labs(MSL)が手がけた初のモデルであり、Llama系のオープンソース路線から離れた初のプロプライエタリモデルです。

この記事では、公式発表と独立評価機関(Artificial Analysis)のデータをもとに、Muse Sparkのベンチマーク・特徴的な「Contemplating mode」・現在のアクセス方法・他モデルとの使い分けを解説します。

この記事で学べること

  • Meta Muse Sparkの背景と戦略的意味
  • 主要ベンチマークにおける強みと弱み
  • Contemplating mode(マルチエージェント並列推論)の仕組み
  • 現在のアクセス方法とAPI提供状況
  • GPT-5.4・Claude Opus 4.6・Gemini 3.1 Proとの使い分け指針

対象読者

  • 最新のLLMトレンドを追いたいエンジニア
  • LLM選定・モデル比較に携わる開発者
  • Meta AIの戦略変化に関心のある方

TL;DR

  • Muse SparkはMetaが2026年4月8日にリリースした初のプロプライエタリLLM
  • Alexandr Wang(元Scale AI CEO)率いるMeta Superintelligence Labs(MSL)が開発
  • **HealthBench Hardでフロンティアモデル中1位(42.8)**を達成
  • 総合スコアはIntelligence Index 52(4位 / GPT-5.4: 57、Claude Opus 4.6: 53)
  • コーディング・エージェントタスクは現状他モデルに劣る
  • 「Contemplating mode」(マルチエージェント並列推論)でHLEスコアをリード
  • 現在は限定プレビューAPI + Meta AIアプリから無料アクセス可能

Muse Sparkとは

Meta Superintelligence Labsの設立経緯

Muse SparkはMetaの新組織「Meta Superintelligence Labs(MSL)」が開発した初のモデルです。MSLの設立は2025年後半にさかのぼります。Llama 4が期待を下回る結果に終わり、Mark ZuckerbergがAI部門を抜本的に再編したことが契機です。

2026年初頭、MetaはScale AIの49%株式を143億ドルで取得し、Scale AI CEOだったAlexandr WangをMSLの責任者として招聘しました1

オープンソースからの方針転換

Metaはこれまで、LlamaシリーズをMITライセンスで公開するオープンソース戦略を採ってきました。Muse Sparkはこの路線を変え、クローズドソースとして提供されます。公式発表では「将来バージョンのオープンソース化を希望」と述べており、完全な閉鎖路線ではないものの、業界への影響は大きいと見られています2

ビジョン: Personal Superintelligence

Zuckerbergが掲げるビジョンは「Personal Superintelligence」です。すべての人が自分専用のAIエージェントを持ち、思考・計画・コミュニケーション・行動を代行させる世界を目指しています。Muse SparkはそのPhase 1に位置づけられます。


ベンチマーク詳細

Artificial Analysis Intelligence Index v4.0(2026年4月時点)を主要データとして整理します3

総合スコア: Artificial Analysis Intelligence Index

モデル Intelligence Index 順位
GPT-5.4 57 1位タイ
Gemini 3.1 Pro 57 1位タイ
Claude Opus 4.6 53 3位
Muse Spark 52 4位

総合スコアは4位と控えめですが、特定ベンチマークでは首位を獲得しています。

HealthBench Hard: 最大の強み

医療・ヘルスケア分野のベンチマーク「HealthBench Hard」では、フロンティアモデル中1位を記録しました。

モデル HealthBench Hard
Muse Spark 42.8
GPT-5.4 40.1
Grok 4.2 20.3
Gemini 3.1 Pro 20.6

医療情報の正確性・安全性が求められる用途での優位性は明確です。

マルチモーダルビジョン: MMMU-Pro

マルチモーダル推論ベンチマーク(MMMU-Pro)では80.5%を記録し、フロンティアモデル中2位に位置します。テキスト・画像・音声のネイティブ対応と組み合わせ、視覚理解タスクにも強みがあります。

ARC-AGI-2: 抽象推論の課題

抽象的な問題解決能力を測るARC-AGI-2では、他モデルとの差が際立ちます。

モデル ARC-AGI-2
Gemini 3.1 Pro 76.5
GPT-5.4 76.1
Muse Spark 42.5

約34ポイントの差があり、新しいパターンへの汎化能力では現時点で劣位です。

GDPval-AA: エージェントタスク

実際のデスクトップ・業務タスク遂行能力を測るGDPval-AA(ELO形式)は以下の通りです(2026年4月8日時点、Artificial Analysis)。

モデル GDPval-AA ELO
GPT-5.4 1,674
Claude Opus 4.6 1,607
Claude Sonnet 4.6 1,648
Muse Spark 1,444
Gemini 3.1 Pro Preview 1,320

GPT-5.4から230ポイント差があるものの、Gemini 3.1 Proよりは高い水準です。

Terminal-Bench 2.0: コーディング

コーディング性能の指標となるTerminal-Bench 2.0では、他モデルとの差が顕著です。

モデル Terminal-Bench 2.0
GPT-5.4 75.1
Gemini 3.1 Pro 68.5
Muse Spark 59.0

コーディングアシスタントやコードレビュー用途では、現時点でClaude Opus 4.6またはGPT-5.4を選ぶ方が実用的です。

トークン効率: 隠れた優位性

Artificial Analysisの評価では、Muse Sparkは全評価を通じて58Mの出力トークンで完了しています。これは他モデルと比べ顕著に効率的です。

モデル 評価消費トークン
Claude Opus 4.6 157M
GPT-5.4 120M
Gemini 3.1 Pro 57M
Muse Spark 58M

APIコストが発表された際、この効率性は価格競争力につながる可能性があります。


Contemplating mode とは

Muse Sparkの独自機能「Contemplating mode」は、マルチエージェント並列推論を実行するモードです。複数の思考プロセスを並列に走らせ、最終回答を統合します。

Humanity's Last Exam(HLE)での成果

非常に高難度な知識・推論問題を問うHLEにおいて、Contemplating modeを有効にしたMuse SparkはGPT-5.4とGemini 3.1 Proをスコアで上回っています4

使いどころ

Contemplating modeは推論コスト(レイテンシ・トークン)が増加します。公式ドキュメントによると以下の用途が想定されています。

  • 複雑な医療診断・研究文献の総合分析
  • 多段階推論を要する数学・科学問題
  • 複数の視点から検討が必要なリサーチタスク

日常的なコーディング補助や短文生成では通常モードが推奨されています。


アクセス方法

Meta AIアプリ(無料)

Meta AIアプリ(iOS・Android・Web)から、現在無料でMuse Sparkにアクセスできます。Facebook・Instagram・WhatsApp・Messengerとの統合も進んでいます。

API(限定プレビュー)

2026年4月時点では、選定パートナーへの限定プレビューAPIとして提供中です。一般向けAPIの公開時期・料金はMeta公式から未発表です。

Artificial AnalysisによるとAPIプロバイダーによるベンチマークはゼロのため、外部からの独立した測定は評価時点ではできていません3

今後の展望

  • 公開API提供時期: 未定(Meta公式未発表)
  • オープンソース化: 「将来バージョンで希望」と表明
  • コンテキストウィンドウ: Metaは未公式発表(公式確認待ち)

用途別モデル選択ガイド

用途 推奨モデル 理由
医療・ヘルスケア情報 Muse Spark HealthBench Hard 首位(42.8)
高難度推論(HLE水準) Muse Spark(Contemplating mode) HLEスコアでGPT-5.4・Geminiを上回る
マルチモーダル視覚タスク Gemini 3.1 Pro / Muse Spark 両者ともに高いMMMA-Pro
コーディング・PR自動化 GPT-5.4 / Claude Opus 4.6 Terminal-Bench 2.0で16ポイント差
エージェント型業務タスク GPT-5.4 / Claude Opus 4.6 GDPval-AA で230ポイント差
抽象的パターン推論 GPT-5.4 / Gemini 3.1 Pro ARC-AGI-2で34ポイント差
コスト効率重視 Muse Spark(API公開後) 58Mトークン効率で最安クラスの可能性

まとめ

Muse Sparkは「MetaがAI競争に本気で戻ってきた」ことを示す重要なリリースです。

強みのまとめ

  • HealthBench Hardで世界1位: 医療・ヘルスケア用途での信頼性
  • Contemplating modeでHLE首位: 高難度推論での多段推論能力
  • 高いトークン効率: API公開後のコストメリットに期待
  • マルチモーダル: テキスト・画像・音声のネイティブ統合

現在の限界

  • コーディング・エージェントタスクでは先行モデルに及ばない
  • ARC-AGI-2(抽象推論)に34ポイント以上の差がある
  • 公開APIは未提供(限定パートナー向けプレビューのみ)

今後の注目点

APIの一般公開が実現すると、トークン効率の高さからコスト競争力が生まれる可能性があります。また、MSLが今後どのようなモデル(Muse Spark 2など)をリリースするかが注目点です。オープンソース化の動向も、開発者にとって重要なシグナルとなります。

参考リンク

  1. Meta debuts first major AI model since $14 billion deal to bring in Alexandr Wang - CNBC(2026-04-08)

  2. Meta debuts the Muse Spark model in a 'ground-up overhaul' of its AI - TechCrunch(2026-04-08)

  3. Muse Spark: Meta is back in the AI race - Artificial Analysis(2026-04-08) 2

  4. So long, Llama: Meta unveils Muse Spark AI with new Contemplating mode - 9to5Mac(2026-04-08)

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?