速さに振った550B、NVIDIA Nemotron 3 Ultraの中身を読む

Posted at 2026-06-27

オープンウェイトのLLMで「賢さ」を語るとき、私たちはたいていベンチマークの順位表を見る。NVIDIAが6月4日に公開したNemotron 3 Ultraは、その順位表で世界一を取りにいったモデルではない。550Bという規模のわりに、知能指数の総合点では中国勢のKimi K2.6に負けている。にもかかわらずこのモデルが面白いのは、勝負どころを「賢さ」ではなく「同じ精度をどれだけ速く安く出せるか」に置き、そのためにアーキテクチャを土台から組み替えてきたからだ。長時間動き続けるエージェントを実際に運用したことがある人ほど、この割り切りは刺さると思う。

トークン課金で効いてくるのは賢さより速さだ

エージェントを本番で回すと、知能指数の数ポイント差より、1秒あたり何トークン吐けるか、100万トークンの文脈を抱えたときに値段がいくらになるかのほうが効いてくる。ツールを何十回も呼び、長い履歴を持ち回り、失敗してはやり直す。その総コストは「賢さ」ではなく「単位コストあたりの処理量」で決まる。

NVIDIAはNemotron 3 Ultraを、まさにこの「長く走るエージェント」向けだと位置づけている。実際、独立評価のArtificial Analysisによる総合知能指数(Intelligence Index)は47.7(NVFP4重み)/48.2(BF16)で、US発のオープンウェイトとしては頭ひとつ抜けているが、Kimi K2.6の53.9には届かない。コーディング指数に至ってはわずか31BのGemma 4におよそ1点負けている。賢さの絶対値では尖っていないのだ。

代わりにNVIDIAが誇示するのは throughput だ。公式の数字では、同じオープン勢のGLM-5.1-754B、Kimi-K2.6-1T、Qwen-3.5に対してそれぞれ5.9倍・4.8倍・1.6倍の推論スループットを主張し、100万トークン文脈での長文理解ベンチRULERでは最高精度を取ったとしている。プレリリースの実機計測では毎秒400トークン超が出ている。順位表ではなく請求書で勝ちにきている、という設計思想だ。

中身は「Mamba×アテンション×MoE」の混成体

その速さはどこから来るのか。HuggingFaceのモデルカードが明かすアーキテクチャは、近年の効率化テクニックを全部のせした構成になっている。NVIDIAはこれを LatentMoE と呼び、「Mamba-2層とMoE層を交互に並べ、そこに一部のAttention層を挿す」と説明する。聞き慣れない言葉が続くので、ひとつずつ何を解決しているのか分解したい。

第一に MoE(Mixture-of-Experts)。総パラメータは550Bあるが、1トークンを処理するのに実際に動くのは55Bだけだ。専門家(expert)を多数用意し、トークンごとに一部だけ起動する。巨大な知識を抱えつつ、1回の計算は小さく保てる。これが「550Bなのに軽い」の正体である。

第二に Mamba。通常のTransformerのアテンションは、系列が長くなると計算量がトークン数の二乗で膨らむ。100万トークンを正面から相殺すると現実的でない。Mambaは状態空間モデル(SSM)と呼ばれる系統で、系列をほぼ線形のコストで流していける。長文脈ほど効く。ただし全部をMambaに置き換えると品質が落ちるため、要所にだけアテンションを残す。これが「ハイブリッド」の意味だ。長文脈の安さ(Mamba)と表現力(アテンション)のいいとこ取りを狙っている。

第三に MTP(Multi-Token Prediction)による投機的デコード。通常のLLMは1ステップで1トークンしか生成しないが、Nemotron 3 UltraはMTP層を内蔵し、複数トークンをまとめて予測して検証で通す。一般的な投機的デコードは「下書き用の小さいモデル」を別に用意するが、こちらはモデル自身が下書き機能を持つ。NVIDIAが「native(ネイティブ)」と書くのはそのためで、外付けなしで速くなる。

もうひとつ地味だが効くのが NVFP4 での事前学習だ。多くのモデルは普通の精度で学習してから後で量子化するが、これは最初から4bit浮動小数点で学習を回している。Blackwell世代のFP4テンソルコアを前提にした作りで、推論時のメモリと帯域をそもそも小さく設計している。さらに推論時にどれだけ「考える」かを調整する reasoning budget control も持つ。

要するにこのモデルは、賢さの最後の数ポイントを削ってでも、長文脈・高スループット・低コストに全振りした設計だ。エージェント基盤を組む立場からすると、この優先順位は正直で、好感が持てる。

ライセンスは2枚あることに注意

開かれているのはUltra単体ではない。NVIDIAはファミリーとして、約30B(アクティブ3B)のNano、約100B(同10B)のSuper、そしてUltraの3サイズを出し、事前学習・事後学習・強化学習向けに合計3兆トークンのデータセットと、NeMo Gym・NeMo RLといった学習用ライブラリまで公開している。Ultra自体もNVFP4量子化版・BF16事後学習版・BF16ベース版・報酬モデル(GenRM)の4チェックポイントが落ちてくる。重みだけでなく作り方ごと開ける姿勢だ。

ここで実務者が引っかかるのがライセンスだ。ソースを突き合わせると食い違いがある。GitHubの開発者リポジトリはApache 2.0のバッジを掲げているが、これはレシピやコード側の話で、モデルカードを見るとUltraの**重み本体は「OpenMDW License Agreement, version 1.1」**になっている。OpenMDWはLinux Foundation系の比較的緩いオープンウェイト向けライセンスだが、Apache 2.0とは別物だ。「リポジトリがApache 2.0だから重みも自由」と早合点せず、使う成果物ごとにライセンスを確認しておきたい。商用投入を検討するなら、ここは最初に詰めるポイントになる。

動かすには現実的なハードルがある

使い方そのものは素直だ。モデルカードにはvLLMでそのまま立てる例が載っている。

vllm serve nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 \
  --host 0.0.0.0 \
  --port 8000 \
  --tensor-parallel-size 8 \
  --dtype bfloat16

Transformersから直接触るなら、リポジトリIDを指定するだけでいい。

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained(
    "nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16"
)
model = AutoModelForCausalLM.from_pretrained(
    "nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16"
)

ただしBF16版のUltraを動かすには、モデルカードの記載で最低8基のB200相当が要る。個人で気軽に回せる規模ではない。手元で触りたいなら、まずは30BのNano(nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16)から入るのが現実的だろう。NanoはすでにHuggingFaceに加えてBasetenやFireworksなどのプロバイダ経由でも提供され、NIMマイクロサービスにもなっている。

どう捉えるか

Nemotron 3 Ultraは、オープンウェイト競争の軸が静かにずれてきたことを示す一例だと感じる。少し前まで「オープンで最も賢いのはどれか」が話題の中心だったが、エージェントが何時間も走り、トークンが青天井に積み上がる時代には、同じ精度を何倍速く・何割安く出せるかのほうが運用を左右する。MambaとアテンションのハイブリッドにFP4学習とネイティブ投機的デコードを重ね、知能の絶対値ではなくコスト効率に賭けたこの550Bは、その流れをアーキテクチャの言葉で表明している。

知能指数で世界一でない点を弱みと見るか、割り切りと見るかは立場による。だが「長く走るエージェントを安く回したい」という、いま多くの開発現場が抱える具体的な悩みに対して、明確な答えを設計レベルで返してきたモデルであることは間違いない。重みもデータも公開されているので、気になるならNanoから当ててみるといい。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up