0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

「オープンソースAIこそ正義」って言ってたじゃないか、、、ザッカーバーグが、クローズドモデルを出した日 ─ Meta Muse Sparkの全貌

0
Posted at

この記事の対象読者

  • Llama系モデルを使ってきた開発者・研究者
  • AI業界の勢力図・戦略の変化を追っている人
  • LLMのベンチマーク比較に関心がある人
  • オープンソースAIの将来を考えたいエンジニア
  • Meta AIを自社プロダクトに組み込むことを検討している人

この記事で得られること

  • Muse Sparkの技術的な詳細とベンチマーク結果の正確な解読
  • Metaが「オープン路線」から「クローズド路線」に転じた経緯と理由
  • 「Contemplating」モードの仕組みと、他社の推論モデルとの違い
  • Llamaユーザーが今取るべきアクション
  • Muse Sparkの「強い分野」と「致命的に弱い分野」

この記事で扱わないこと

  • Muse Spark APIの利用方法(一般公開されていないため)
  • Metaの株価・財務分析の詳細(本筋でないため)
  • 他のフロンティアモデル(GPT-5.4、Gemini 3.1等)の個別解説

0. TL;DR(5行まとめ)

  1. 2026年4月8日: Metaが新モデル「Muse Spark」を発表。Meta Superintelligence Labs(MSL)の初成果物
  2. クローズドソース: Llamaとは異なり、重みは非公開。APIもパートナー限定。「オープンソースAIの旗手」が旗を降ろした
  3. 性能: Artificial Analysis Intelligence Index 52点(5位)。GPT-5.4(57)、Claude Opus 4.6(53)に肉薄
  4. 強み: 医療・科学推論・視覚理解。弱み: コーディング・抽象推論で大きく後れ
  5. 計算効率: Llama 4 Maverickと同等性能を10分の1以下の計算量で達成

1. 「家訓」が破られた日 ─ なぜMetaはオープンソースを捨てたのか

1.1 かつての宣言

2024年7月、Mark Zuckerbergは2,000字を超える長文マニフェスト「Open Source AI is the Path Forward」を公開した。そこにはこう書かれていた:

「オープンソースAIは、このテクノロジーを活用して最大の経済的機会と安全を全ての人にもたらす世界最善の道だ」

UnixとLinuxの歴史を引き合いに出し、「オープンが勝つ」と高らかに宣言した。Llamaシリーズはこの「家訓」の体現だった。Llama 3.1のオープン重み公開により、開発者はAPIコストなしでセルフホスト・ファインチューニング・アーキテクチャ監査が可能になり、既存のAPIプロバイダに対して88%のコスト削減を実現した。

1.2 転機: Llama 4の失敗

2025年4月にリリースされたLlama 4は、Metaにとって痛手だった。

問題 内容
ベンチマーク操作疑惑 公開ベンチマーク結果が実際の性能と乖離していたと批判される
性能の停滞 Alibaba Qwen、DeepSeekなど中国勢のオープンモデルに追い抜かれる
最大モデルの開発断念 Llama 4 Behemoth(最大バリアント)の開発を中止

Llamaの支配力が揺らいだ。2026年初頭の時点で、HuggingFaceでのダウンロードシェアは中国勢(DeepSeek、Qwen等)が41%を占め、Llamaの優位性は失われつつあった。

1.3 Alexandr Wangの到来

ここで登場するのがAlexandr Wangだ。

項目 内容
人物 Scale AI共同創業者・元CEO。データラベリング業界の巨人
Metaへの入社 2025年夏。**最高AI責任者(Chief AI Officer)**として着任
背景 Metaが143億ドルでScale AIの49%株式を取得した超大型ディールの一環
使命 Meta Superintelligence Labs(MSL)を率い、「個人向け超知能」を実現する

Wangが9ヶ月で出した答えが、Muse Sparkだ。そしてその答えは、クローズドソースだった。

家訓を守って衰退するか、家訓を破って戦うか。Metaは後者を選んだ。

The Registerの見出しがこの状況を的確に表現している:

「Metaの新モデルは、ザッカーバーグの私立学校と同じくらいオープンだ」

...草。


2. Muse Sparkの技術的全体像

2.1 基本スペック

項目 内容
モデル名 Muse Spark
内部コードネーム Avocado
開発元 Meta Superintelligence Labs(MSL)
リリース日 2026年4月8日
モデルタイプ ネイティブマルチモーダル推論モデル
対応モダリティ テキスト、画像、音声(入力) → テキスト(出力)
パラメータ数 非公開
重み公開 なし(クローズドソース)
API パートナー限定プライベートプレビュー。価格未公開
利用方法 meta.ai(無料) / Meta AIアプリ
展開予定 WhatsApp, Instagram, Facebook, Messenger, AIグラス

2.2 アーキテクチャの特徴

Metaは詳細なアーキテクチャを公開していないが、技術ブログから読み取れるポイントがある。

特筆すべき点:

  1. ネイティブマルチモーダル: 視覚と言語を後付けで「つなぎ合わせた」のではなく、学習時から統合。クロスモーダル推論の精度が向上
  2. Visual Chain of Thought: 画像を「見ながら」段階的に推論する。エスプレッソマシンの部品を特定したり、ヨガのフォームを分析したりできる
  3. Contemplatingモード: 複数のサブエージェントが並列に推論し、結果を統合する。後述するがここが独自の強み
  4. 計算効率: Llama 4 Maverickと同等の性能を10倍以上少ない計算量で達成

2.3 Contemplatingモードの仕組み

Muse Spark最大の技術的特徴はContemplatingモードだ。

これはGoogleのGemini Deep ThinkやOpenAIのGPT-5.4 Proの「拡張推論」に相当する機能だが、「複数エージェントによる並列推論」というアプローチはMuse Sparkに独自の色がある。

Contemplatingモードの実績:

ベンチマーク 通常モード Contemplatingモード 比較対象
Humanity's Last Exam 42.8 50.2% GPT-5.4 Pro: 43.9%
FrontierScience Research - 38.3% GPT-5.4 Pro: 比較対象

Contemplatingモードは「難しい科学的問題」で特に力を発揮する。通常モードとの差が約7ポイントもある。


3. ベンチマーク解読 ─ 「何が強くて、何が弱いのか」

3.1 Artificial Analysis Intelligence Index(v4.0)

独立評価機関Artificial Analysisによる総合ランキング:

順位 モデル スコア
1 Gemini 3.1 Pro Preview 57
2 GPT-5.4 57
3 Claude Opus 4.6 53
4 Muse Spark 52
5 Claude Sonnet 4.6 -
(参考) Llama 4 Maverick 18

Llama 4 Maverickの18点から52点への跳躍は、わずか9ヶ月で成し遂げられた。これは「改善」ではなく「完全な作り直し」を意味する。

3.2 分野別の詳細

ここが最も重要なセクションだ。Muse Sparkには明確な「得意科目」と「苦手科目」がある。

強い分野(トップクラス)

ベンチマーク Muse Spark GPT-5.4 備考
HealthBench Hard(医療) 42.8 40.1 GPT-5.4を上回る
CharXiv Reasoning(図表理解) 86.4 - 視覚理解2位
GPQA Diamond(PhD推論) 89.5 - Grok 4.2(88.5)を上回る
CritPT(物理研究) 11%(5位) - Gemini 3 Flash(9%)を上回る

医療分野でGPT-5.4を上回るのは注目に値する。Metaは公式ブログでも「健康に関する質問への対応」を強調しており、医療AIとしてのポジショニングを明確にしている。

弱い分野(致命的な差)

ベンチマーク Muse Spark トップモデル
ARC-AGI-2(抽象推論) 42.5 Gemini 3.1 Pro: 76.5 34ポイント差
Terminal-Bench 2.0(コーディング) 59.0 GPT-5.4: 75.1 16ポイント差
GDPval-AA(実務タスク) 1,427 ELO GPT-5.4: 1,676 ELO 大きな差

ARC-AGI-2のスコア42.5は深刻だ。抽象推論 ── つまり「見たことのないパターンを推論する能力」── で34ポイントも差がつくのは、アーキテクチャレベルの課題を示唆している。内部評価でリリースが遅延した原因もこの領域だったと報じられている。

3.3 トークン効率: 隠れた強み

見落とされがちだが、Muse Sparkのトークン効率は特筆に値する。

モデル Intelligence Index実行に要した出力トークン数
Gemini 3.1 Pro Preview 57M
Muse Spark 58M
GPT-5.4 120M
Claude Opus 4.6 157M

Muse SparkはClaude Opus 4.6の約3分の1のトークン数で同等レベルの評価を完了している。同じトークン単価なら、Muse Sparkの方が約2.7倍安く済む計算だ。APIが公開された際の価格競争力に直結するポイントだ。


4. 「家訓」を破った戦略的な理由

4.1 なぜクローズドにしたのか

Metaの戦略転換には明確なビジネスロジックがある。

理由 詳細
API収益 OpenAI・Anthropicと同じ「APIアクセス課金」モデルで収益化したい
プロダクト統合 Instagram、WhatsApp、Messengerへの深い統合には自社管理が必要
自前ホスティング対策 オープン重みだと誰でも自前ホスティングしてMetaの価格を下回れてしまう
ベンチマーク検証の制御 Llama 4での「ベンチマーク操作疑惑」の再発を防ぐ(皮肉だが)

4.2 「ハイブリッド戦略」の実態

Metaの公式見解は「Llamaのオープンラインは継続し、Museのクローズドラインと並行する」というものだ。

ただし、「最先端はクローズド、オープンは二番手」というのはGoogleのGemini/Gemma、OpenAIのGPT/gpt-ossと同じ構図だ。Llamaが特別だったのは「最先端をオープンにしていた」点にある。その特別さは失われた。

4.3 Llamaユーザーへの影響

あなたの立場 影響 推奨アクション
Llamaをセルフホストしている 直接の影響なし。Llama 4は引き続き利用可能 当面はLlama 4を継続。代替としてDeepSeek V4やQwen 3.6も検討
Llama APIを使っている Llama APIは継続。Muse SparkのAPIは別物 Muse Spark APIが公開されたら性能比較を実施
Metaの「オープン戦略」に賭けていた 最も影響が大きい。Muse 2以降もクローズドなら、長期戦略の見直しが必要 代替のオープンモデル(DeepSeek V4、Gemma 4、GLM-5.1)を評価

5. 他社モデルとの実践的な比較

5.1 「何に使うか」で選ぶ

ユースケース 最適なモデル Muse Sparkの適性
医療・健康情報 Muse Spark 最強
科学研究(Contemplating) Muse Spark トップクラス
図表・チャート理解 Muse Spark 2位
コーディング・エージェント開発 Claude Code / GPT-5.4 大きく劣る
抽象推論・パターン認識 Gemini 3.1 Pro 致命的に弱い
汎用チャット・実務タスク GPT-5.4 / Claude やや劣る
コスト最適化 Muse Spark(meta.ai無料) 無料で使える

5.2 ローカルLLM勢への影響

ローカルLLMを自前のGPU環境で動かしている開発者にとって、Muse Sparkは直接的な競合ではない。重みが公開されていないため、llama.cppOllamaで動かすことは不可能だ。

ローカルLLM向けのオープンモデルの現在の選択肢:

モデル パラメータ ライセンス 特徴
DeepSeek V4 1T(MoE) Apache 2.0 コーディング・長文推論に強い
Qwen 3.6-Plus - オープン 日本語性能良好
Gemma 4 複数サイズ Apache 2.0 Google品質のオープンモデル
GLM-5.1 - MIT 中国Zhipu AIのオープンモデル
Llama 4 Scout/Maverick 109B/400B(MoE) Meta License 引き続き利用可能

Muse Sparkの「10倍の計算効率」が本物なら、この効率改善がいずれLlamaラインにもフィードバックされる可能性はある。その場合、ローカルLLM勢にとっても朗報だ。


6. System Cardから読み取れる安全性の課題

6.1 評価認識問題

Muse SparkのSystem Card(安全性評価レポート)には、先日のProject Glasswingで話題になったClaude Mythosと似た報告がある。

観測事項 内容
評価認識 モデルが「評価されていること」を一定の割合で認識している兆候

フロンティアモデルが「テスト中であること」を認識し、それに応じて振る舞いを変える可能性は、AI安全性の重要な懸念事項だ。Claude Mythosでも同様の報告があったことを踏まえると、これは特定のモデル固有の問題ではなく、フロンティアモデル全般の傾向かもしれない。

6.2 プライバシーの懸念

Muse Sparkの利用にはMetaアカウント(Facebook/Instagram)でのログインが必要だ。MetaはユーザーデータでAIを学習させてきた実績があり、入力した情報がどう扱われるかは慎重に検討する必要がある。


7. エンジニアとして今すぐ試せること

7.1 Muse Sparkを試す

# meta.ai にアクセスして無料で試せる
# Metaアカウント(Facebook/Instagram)が必要
open https://meta.ai

APIは未公開だが、Webインターフェース経由で以下を試すことはできる:

  1. 医療・健康の質問: Muse Sparkの最大の強み。症状の説明、薬の相互作用など
  2. 画像を使った質問: 写真をアップロードして分析させる(Visual CoT)
  3. 科学的推論: 複雑な科学的質問にContemplatingモードで回答させる
  4. ビジュアルコーディング: Webサイトやミニゲームをプロンプトから生成

7.2 ベンチマークを自分で検証する

Muse SparkのAPIが公開されたら、以下のフレームワークで独自評価ができる:

"""
Muse Spark 簡易ベンチマーク比較スクリプト(概念コード)
APIが公開されたら実行可能

前提: pip install anthropic openai
"""

import json
from dataclasses import dataclass


@dataclass
class BenchmarkResult:
    model: str
    task: str
    score: float
    tokens_used: int
    latency_ms: float


# ベンチマーク用の質問セット(例: GPQA Diamond風の推論問題)
BENCHMARK_QUESTIONS = [
    {
        "task": "scientific_reasoning",
        "question": (
            "量子力学において、二重スリット実験で電子を1個ずつ発射した場合、"
            "スクリーンに干渉縞が観測される理由を説明せよ。"
            "コペンハーゲン解釈と多世界解釈の両方の観点から述べよ。"
        ),
        "rubric": [
            "波動関数の重ね合わせに言及",
            "確率振幅の干渉を説明",
            "コペンハーゲン解釈: 観測による波動関数の収縮",
            "多世界解釈: 分岐する宇宙",
        ],
    },
    {
        "task": "medical_reasoning",
        "question": (
            "45歳男性。2週間前から持続する咳嗽と微熱。胸部X線で右下肺野に"
            "浸潤影。喀痰培養でMycobacterium tuberculosisが検出された。"
            "治療方針と使用する薬剤の組み合わせを述べよ。"
        ),
        "rubric": [
            "標準治療レジメン(RIPE)に言及",
            "リファンピシン・イソニアジド・ピラジナミド・エタンブトールの4剤",
            "初期強化期(2ヶ月)と維持期(4ヶ月)の区別",
            "薬剤耐性の可能性への言及",
        ],
    },
]


def evaluate_response(response: str, rubric: list[str]) -> float:
    """ルーブリックに基づくスコアリング(簡易版)"""
    score = 0
    for criterion in rubric:
        if any(
            keyword in response.lower()
            for keyword in criterion.lower().split()[:3]
        ):
            score += 1
    return score / len(rubric)


def run_benchmark(models: dict) -> list[BenchmarkResult]:
    """
    複数モデルでベンチマークを実行
    models: {"model_name": callable} の辞書
    """
    results = []
    for model_name, model_fn in models.items():
        for q in BENCHMARK_QUESTIONS:
            # 実際のAPI呼び出し(APIが公開されたら実装)
            # response = model_fn(q["question"])
            # score = evaluate_response(response, q["rubric"])
            # results.append(BenchmarkResult(...))
            pass
    return results


if __name__ == "__main__":
    print("Muse Spark APIが公開されたら実行してください")
    print("現時点では meta.ai でWebインターフェース経由の手動テストを推奨")

7.3 オープンソース代替の評価

Muse Sparkがクローズドであることを踏まえ、オープンモデルの代替評価も並行して進めよう。

# DeepSeek V4をOllamaで試す(Apache 2.0ライセンス)
ollama pull deepseek-v4

# Qwen 3.6-Plusを試す
ollama pull qwen3.6-plus

# Gemma 4を試す(Apache 2.0ライセンス)
ollama pull gemma4

ローカルLLMの環境構築については、以下の関連記事を参照:


8. 学習ロードマップ

Level 1: Muse Sparkを理解する

  • meta.ai で実際に触ってみる
  • 公式ブログを読む(about.fb.com/news/2026/04/introducing-muse-spark-meta-superintelligence-labs/)
  • Artificial Analysisの独立評価を確認する

Level 2: フロンティアモデルの比較評価

  • LLMベンチマークの読み方を理解する
  • Artificial Analysis Intelligence Index の各評価軸を把握する
  • 自分のユースケースに最適なモデルを特定する

Level 3: オープンモデルの代替戦略

  • DeepSeek V4 / Qwen 3.6 / Gemma 4 をローカル環境で比較
  • GGUF量子化によるVRAM最適化
  • vLLMによるプロダクション推論環境の構築

Level 4: AI業界の構造変化を追う

  • オープンソースAI vs クローズドAIの長期トレンドを理解する
  • EU AI Act等の規制動向がオープンモデルに与える影響
  • Metaの「ハイブリッド戦略」の今後を注視する

まとめ ─ 「家訓」を破ったことの意味

Muse Sparkを技術的に評価すると、9ヶ月でLlama 4(18点)からフロンティア圏(52点)に跳躍したという事実は素直に凄い。特にLlama 4と同等性能を10分の1の計算量で実現したという効率改善は、アーキテクチャと学習データの両面で本質的な進歩があったことを示している。

一方で、ARC-AGI-2(42.5 vs 76.5)やコーディング(59.0 vs 75.1)での大幅な後れは、Muse Sparkが「万能のフロンティアモデル」ではなく「特定分野に強い専門家」であることを意味する。医療・科学推論・視覚理解では他を凌駕するが、コーディングや抽象推論では明確に劣る。

そして最も重要な問題: オープンソースの「家訓」を破ったことの意味

2024年に「オープンソースAIこそ正義」と宣言した会社が、2026年にクローズドモデルを出した。これは「ザッカーバーグが嘘をついた」という単純な話ではない。**「最先端をオープンに保つことの経済的コストが、もはやMetaでさえ負えない水準に達した」**ということだ。

143億ドルのScale AI買収、年間1,150〜1,350億ドルのCAPEX。この規模の投資を回収するには、APIによる収益化が不可避だった。そしてAPIで収益化するなら、重みをオープンにする経済的合理性はない。

Llamaコミュニティにとっては複雑な心境だろう。だが、Llamaラインは引き続きオープンで維持される(とMetaは言っている)。問題は、Muse 2以降もクローズドのままなのかどうかだ。もしそうなら、「Metaの最先端 = オープン」という等式は完全に過去のものとなる。

個人的には、DeepSeek V4やQwen 3.6のような中国勢のオープンモデルが急速にフロンティアに迫っていることの方が、ローカルLLM勢にとっては重要なトレンドだと思う。Metaがクローズドに転じても、オープンソースAIの灯は消えない。灯を持つ手が変わるだけだ。


参考文献


この記事が参考になった方は、いいね・ストックをもらえると次の記事を書くモチベになります。

ローカルLLM・AIセキュリティ関連の最新情報は以下でも発信しています:

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?