グラレコ
はじめに
Sakana AI が2026年6月22日に公開した Fugu(フグ)と Fugu Ultra は、ひとことで言うと「他のLLMを呼び出して指揮するLLM」です。Fugu 自身が1つの言語モデルでありながら、内部にいる複数のフロンティアモデル(エージェントプール)へ仕事を振り分け、対話させ、結果を統合します。利用する側から見ると、その複雑さは一切見えません。OpenAI 互換の単一 API を叩くだけで、裏側ではマルチエージェントが動いている、という仕組みです。
キャッチコピーは「One Model to Command Them All(すべてを統べる一つのモデル)」です。指輪物語をもじったこの一文が、Fugu の性格をよく表しています。1つの巨大モデルでスケールを追うのではなく、複数のモデルを協調させたエコシステムとして強さを出す、という発想のプロダクトです。
この記事では、Fugu と Fugu Ultra がどういうモデルなのか、どんなアーキテクチャで動くのか、そして本題である他のLLMとのベンチマーク比較を整理していきます。あわせて、公開されているスコアがベンダー公称値であることや、ローンチ直後に出た懐疑的な声についても、フェアに触れていきます。
この記事で扱う内容は次のとおりです。
- Fugu の正体(モデルを指揮するモデル、という発想)
- Fugu と Fugu Ultra の違い
- アーキテクチャ(TRINITY と Conductor)
- 他LLMとのベンチマーク比較(フルスコア表つき)
- ベンチマークの読み方と、独立検証での評価
- 提供形態と使い方、そして開発の狙い
💡本記事の数値・仕様は2026年6月時点のもので、Fugu は API 提供かつ進化中のため、今後変わる可能性があります。
Fugu とは:モデルを指揮するモデル 🎼
まず、Fugu が普通のLLMと何が違うのかを押さえます。一般的なLLMは、1つのモデルが入力を受け取って出力を返します。Fugu はそこに「指揮者」の役割が入ります。Fugu 自身は、エージェントプールにいる複数のLLM(自分自身を再帰的に呼ぶこともあります)に対して、どのモデルに何を任せるか、どう対話させるか、結果をどう統合するかを決めます。
以下の図は、利用者から見た姿と、Fugu の内部で起きていることの対比です。
この図のポイントは2つあります。1つ目は、利用者は「1つのリクエストを投げて、1つの回答を受け取る」だけで、内部のマルチエージェント構成を意識しなくてよいことです。公式の言葉を借りると「多エージェントシステムの複雑さがユーザーのコードに及ぶことは一切ありません」。2つ目は、プールの中身が差し替え可能(swappable)なことです。特定のベンダーのモデルに固定されず、世界中のモデルを組み合わせて使えます。これは後で触れる「AI主権」という狙いにつながります。
ちなみに、この協調の仕方は人間がルールで決め打ちしたものではありません。Fugu は「どう協調するか」そのものを学習しています。固定のワークフローではなく、タスクに応じて委譲先や対話の仕方を選ぶように訓練されている、という点が新しいところです。
Fugu と Fugu Ultra、2つの顔 👥
Fugu には2つのバリアントがあります。速さ寄りの Fugu と、品質寄りの Fugu Ultra です。用途で使い分ける設計になっています。
| Fugu | Fugu Ultra | |
|---|---|---|
| 狙い | 高い性能と低レイテンシのバランス | 難しい多段階タスクの回答品質を最大化 |
| 位置づけ | 日常業務のデフォルト | ここぞという難問用 |
| 得意な用途 | コーディング、コードレビュー、チャットボット、対話型サービス | AI研究、論文再現、サイバーセキュリティ分析、文献・特許調査 |
| エージェントの使い方 | 必要な分だけ振り分ける | より厚みのある専門エージェント群を動員 |
ざっくり言えば、Fugu は「速くて賢い普段使い」、Fugu Ultra は「時間がかかっても最高品質を出す決戦用」です。タスクが入り組んでいて長時間に及び、1回のモデル呼び出しでは解きにくいものほど、Fugu Ultra のマルチエージェント能力が効いてくる、という整理になっています。
アーキテクチャ:TRINITY と Conductor 🧠
Fugu と Fugu Ultra は、Sakana AI が ICLR 2026 で発表した2つの研究をベースにしています。「Trinity: An Evolved LLM Coordinator」と「Learning to Orchestrate Agents in Natural Language with the Conductor」です。バリアントごとに、土台にしている研究が違います。
以下の図は、2つのバリアントが採用している仕組みの違いを示しています。
Fugu(TRINITY 系)は、隠れ状態から「どのワーカーに任せるとよさそうか」をスコアリングする軽量な選択ヘッドを持ち、ワーカーを選ぶことに特化しています。役割の割り当てまではせず、選択をシンプルかつ高速にしているのが特徴です。
一方の Fugu Ultra(Conductor 系)は、もっと踏み込んだことをします。自然言語で「この部分タスクは誰に、どの情報にアクセスさせて任せる」というワークフローそのものを書き出します。木構造・逐次・並列といったトポロジーを組み、ワークフロー内でエージェントを分離して(オーケストレーションの崩壊を防ぐため)、永続的な共有メモリでマルチターンの会話にも対応します。難問に強いのは、この緻密な段取りがあるからです。
学習方法も違います。Fugu は教師あり微調整(SFT)でワーカーの報酬分布へ近づけたうえで、進化戦略(sep-CMA-ES)でエンドツーエンドの成果を直接最大化します。Fugu Ultra は GRPO(Grouped Relative Policy Optimization)で、フォーマットと正確性の2段階の報酬を使って学習します。このあたりは「協調の仕方を学習で獲得する」という思想が、具体的な手法として表れている部分です。
他LLMとのベンチマーク比較 📊
ここが本題です。技術レポート(arXiv:2606.21228)には、Fugu / Fugu Ultra と主要なフロンティアモデルを比較したスコアが載っています。比較対象は Claude Opus 4.8、Gemini 3.1 Pro、GPT-5.5 です。全データを表にまとめます。
| ベンチマーク | Fugu Ultra | Fugu | Claude Opus 4.8 | Gemini 3.1 Pro | GPT-5.5 |
|---|---|---|---|---|---|
| SWE-Bench Pro | 73.7 | 59.0 | 69.2 | 54.2 | 58.6 |
| Terminal Bench 2.1 | 82.1 | 80.2 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench v6 | 92.0 | 90.3 | 90.3 | 88.9 | 90.7 |
| LiveCodeBench Pro | 90.8 | 87.8 | 84.8 | 82.9 | 88.4 |
| Humanity's Last Exam | 50.0 | 47.2 | 49.8 | 44.4 | 41.4 |
| CharXiv Reasoning | 86.6 | 85.1 | 84.2 | 83.3 | 84.1 |
| GPQA-Diamond | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| SciCode | 58.7 | 60.1 | 53.5 | 58.9 | 56.1 |
| τ³ Banking | 20.6 | 21.7 | 20.6 | 8.4 | 20.6 |
| Long Context Reasoning | 73.3 | 74.7 | 67.7 | 72.7 | 74.3 |
| MRCRv2 | 93.6 | 86.6 | 87.9 | 84.9 | 94.8 |
(太字は各行の最高値。スコアはいずれも Sakana AI 公称値で、比較対象は各社の公称値です。)
表を読み解くと、傾向ははっきりしています。
- コーディング系(SWE-Bench Pro / Terminal Bench / LiveCodeBench)で Fugu Ultra が軒並みトップです。特に SWE-Bench Pro は 73.7 で、Opus 4.8 の 69.2、GPT-5.5 の 58.6、Gemini 3.1 Pro の 54.2 を引き離しています。
- 科学・推論系(GPQA-Diamond 95.5、CharXiv Reasoning 86.6、Humanity's Last Exam 50.0)でも先頭です。
- 唯一はっきり負けているのが MRCRv2 で、ここは GPT-5.5 の 94.8 が最上位、Fugu Ultra は 93.6 でした。
- SciCode・τ³ Banking・Long Context Reasoning では、Ultra より「素の Fugu」のほうが上、という逆転も起きています。常に Ultra が最強というわけではない点は面白いところです。
公式の表現では「11本中10本でトップスコア」をうたっています。指揮役のモデルが、束ねている個々のモデル(Opus 4.8 や GPT-5.5 など)を上回る、という主張です。なお公式ブログでは、Anthropic の Fable 5 や Mythos Preview といった最先端モデルにも「比肩する」と述べられていますが、これらは非公開モデルのため、上の数値比較表からは外されています。
参考までに、看板の SWE-Bench Pro を並べ替えると、差がイメージしやすいです。
ベンチマークの読み方:公称値という前提 🧐
ここで一度、立ち止まっておきたいことがあります。上のスコアは魅力的ですが、すべて Sakana AI 自身が報告した数値であり、比較対象のスコアも各社の公称値を引いたものです。同一環境で横並びに再実行したものではありません。この前提は、技術レポート自身も limitation として明記しています。
実際、ローンチ直後の反応は手放しの称賛一色ではありませんでした。独立系メディアの観察によると、コミュニティの初期反応はむしろ懐疑寄りで、「これはモデルなのか、それとも賢いルーター(あるいはラッパー)にすぎないのか」という疑問が繰り返し投げかけられたそうです。ローンチから24時間以内には、独立したテスターからベンチマークの主張と実利用の体感に乖離があるという報告も出ています。
技術レポートに書かれている個別の注意点も、正直で参考になります。
| 項目 | レポートが認めている前提 |
|---|---|
| ベースライン | 各社の公称スコアを使用(検証不能な可能性あり) |
| 古典日本文字の読解 | 専門家が手動注釈した25ページのみの小規模データ |
| 盲目チェス | 勝率推定ではなく「説明的」な評価 |
| 株価時系列予測 | 単一の匿名化銘柄で、他資産・他時期・ライブ市場には転移しない |
| 計算コスト・推論時間 | 具体的な数値の記載なし |
つまり、ベンチマーク表は「Fugu の設計が狙いどおり効いている」ことの心強い材料ではありますが、第三者が同条件で再現したわけではない、という距離感で受け止めるのが健全です。とくにオーケストレーション型は、複数モデルを呼ぶぶんレイテンシやコストが膨らみやすいはずで、そこの数値が公開されていないのは、今後の検証ポイントとして残っています。
それでも、Beta 期間(約500名のテスター)からは具体的なエピソードも出ています。あるコードレビューの用途では、他のツールが3件ほどの問題しか指摘しなかったのに対し、Fugu は20件以上を洗い出した、という報告があります。難しくて長くて、1回のモデル呼び出しでは解きにくいタスクほど効く、という設計思想とは整合する話です。
提供形態と使い方 🚀
Fugu と Fugu Ultra は、どちらも OpenAI 互換の単一 API として提供されます。モデルID は fugu-ultra-20260615 や fugu のような形で、既存の OpenAI クライアントからそのまま呼べます。マルチエージェントの配線を自分で書く必要はありません。
from openai import OpenAI
# console.sakana.ai で取得したキーとエンドポイントを使う
client = OpenAI(
base_url="https://api.sakana.ai/v1",
api_key="YOUR_API_KEY",
)
resp = client.chat.completions.create(
model="fugu-ultra-20260615",
messages=[
{"role": "user", "content": "このリポジトリのバグを洗い出して、修正方針までまとめて"},
],
)
print(resp.choices[0].message.content)
ポイントは、呼び出しコードが普通の OpenAI 互換リクエストと変わらないことです。model に Fugu を指定するだけで、裏側ではエージェントプールが動きます。
料金 💰
料金は、日常利用向けのサブスクリプションと、負荷の高い用途向けの従量課金(Pay-as-you-go)の2本立てです。ローンチ時の各種解説で報じられている金額は、次のとおりです。
サブスクリプション(月額)は3段階です。
| プラン | 月額 | 目安の使用量 | 想定ユーザー |
|---|---|---|---|
| Standard | $20 | 基本 | ときどきの API 呼び出し、個人の実験 |
| Pro | $100 | Standard の約10倍 | 定期的なコーディング・研究セッション |
| Max | $200 | Standard の約30倍 | 高負荷・長時間実行のワークロード |
従量課金(Fugu Ultra・100万トークンあたり)は、コンテキスト長で価格が変わります。
| 区分 | 入力 | 出力 | キャッシュ入力 |
|---|---|---|---|
| 標準(〜272Kトークン) | $5 | $30 | $0.50 |
| 高コンテキスト(272K超) | $10 | $45 | $1.00 |
ここで Fugu らしい点が2つあります。1つ目は、最大コンテキストウィンドウが100万トークンに達することです。長い272K超のしきい値を超えると上の高コンテキスト単価に切り替わります。2つ目は課金の考え方です。Fugu は内部で複数のモデルを呼びますが、複数エージェントが動いても料金は積み重ならないと説明されています(素の Fugu は、そのとき実際にアクティブになった基礎モデルに応じて標準価格が変動する形)。マルチエージェントを使いながら、課金は1本のモデルとして見える、というわけです。
💡 上の料金はローンチ時の解説記事(DataCamp・Techsy など)で報じられた数値で、本記事執筆時点(2026年6月)のものです。また EU/EEA からの利用は現時点で不可とされています。最新の正式な価格・提供条件は console.sakana.ai のドキュメントでご確認ください。なお上のコードのエンドポイントとモデルIDも説明用の例です。
なぜ作られたのか:スケールの先と「AI主権」🌐
最後に、Fugu が生まれた背景に触れておきます。Sakana AI は2つの動機を挙げています。
1つ目は技術的な動機です。「最も強力なAIシステムは一枚岩ではなく、協調するエコシステムである」という見立てです。1つのモデルをひたすら巨大化させる路線の先に、複数モデルの協調という別の軸を置いています。
2つ目は地政学的な動機で、こちらが Fugu らしい主張です。単一ベンダーへの依存は現実的な弱点になりうる、という指摘です。公式は、Anthropic の Fable 5 および Mythos 5 に課された輸出規制を例に挙げ、規制が変われば一夜にしてアクセス条件が変わり得る、と述べています。そのうえで、世界中のモデルをオーケストレーションして差し替え可能にしておくことが、「AI主権」を支える選択肢になる、と位置づけています。
エージェントプールが swappable であること、特定ベンダーに固定されないこと。これらは単なる技術的な柔軟性ではなく、こうした主権の観点とセットで設計されている、というのが Fugu の思想的な特徴です。
まとめ 🎁
SAKANA Fugu / Fugu Ultra は、他のLLMを呼び出して指揮するオーケストレーションモデルです。Fugu は速さ重視の普段使い、Fugu Ultra は難問向けの決戦用という2バリアントで、どちらも OpenAI 互換の単一 API から、マルチエージェントの複雑さを見せずに使えます。アーキテクチャは ICLR 2026 の TRINITY と Conductor を土台にしていて、「協調の仕方そのものを学習する」点が新しいところでした。
ベンチマークでは、Fugu Ultra がコーディング・科学・推論の主要ベンチで Claude Opus 4.8・Gemini 3.1 Pro・GPT-5.5 を上回り、11本中10本でトップを主張しています。一方で、これらは Sakana 自身の公称値で、比較対象も各社公称値であること、そしてローンチ直後には「ルーターにすぎないのでは」という懐疑も出たことは、あわせて覚えておきたい点です。
この記事で一つだけ持ち帰っていただきたいのは、Fugu の面白さは「単体スコアの高さ」よりも「モデルを束ねて指揮する、という発想そのもの」にある、ということです。1つのモデルを大きくする競争とは別の方向に賭けたプロダクトであり、その賭けがうまくいくのかは、これから第三者の検証が積み上がるなかで見えてくるはずです。続報が楽しみな1本でした 🐡
