NTTドコモソリューションズ Advent Calendar 2025

NVIDIA Nemotron 3 Nanoを理解したい

Last updated at 2025-12-23Posted at 2025-12-23

この記事はNTTドコモソリューションズ Advent Calendar 2025 24日目の記事です。

はじめに

NTTドコモソリューションズの大森です。
この記事では、2025年12月15日にNVIDIAが発表したNemotron 3 Nanoについて、gpt-oss 20bやQwen3 30B-A3Bといった競合モデルと比較しながら、その特徴と強みを整理していきます。
「Nemotron 3 Nanoって何がすごいの？」「他のオープンウェイトモデルとどう違うの？」という疑問を解消できる内容を目指しました。

1. NVIDIA Nemotron 3 Nanoとは？
2. Nemotron 3 Nanoの全体像
 2-1. Nemotron 3 Nanoの良さ
 2-2. gpt-oss-20B-A4B、Qwen3-30B-A3B-Thinking-2507と比較する
 3. Nemotron 3 Nanoに使われている技術たち
 3-1. MoEとは
 3-2. Hybrid Mamba-Transformer architectureとは
 3-3. GQAとは
 4. 結論

1. NVIDIA Nemotron 3 Nanoとは？

Nemotron 3 Nanoは、NVIDIAが2025年12月15日に公開したオープンウェイトの大規模言語モデル（LLM）です。

最大の特徴は、ベンチマークスコアを追いかけるだけでなく、実際に使うときの「効率」と「エージェントとしての賢さ」を重視して設計されていること。ツールを呼び出したり、複数ステップのタスクを計画・実行したりといった、実用的なAIエージェントとしての利用が想定されているそうです。

なぜ「効率」にこだわるのか

LLMを本番環境で動かすとき、ネックになるのは「推論コスト」です。いくら賢くても、1リクエストあたりのコストが高すぎたり、スループットが出なかったりすると、サービスとして成り立ちません。

Nemotron 3 Nanoは、この問題に正面から向き合っています。高い精度を保ちながら、推論スループットを最大化すること。これが設計の軸になっています。オンプレミス環境や、大量のリクエストをさばく必要があるサービスで、高品質なレスポンスを返せるモデルを目指して開発されています。

Nemotronファミリーの展開

「Nano」という名前からわかるように、これはNemotron 3ファミリーの中で最もコンパクトなモデルです。NVIDIAの公式ページによると、今後Nemotron 3 SuperやNemotron 3 Ultraといった上位モデルも公開予定とのこと¹。用途や計算リソースに応じて選べるようになりそうです。

Nemotron 3 Nanoのライセンス

Hugging Faceでは、学習済みの重み（Baseモデル、BF16版、FP8量子化版）に加えて、学習レシピ、関連コード、学習データの大部分まで公開されています²。「中身がブラックボックスで困る」という問題が起きにくく、研究者や開発者にとってはありがたい公開形態です。

ライセンスは**NVIDIA Open Model License Agreement（OMLA）**というNVIDIA独自のライセンスが適用されています³。gpt ossやQwen3が採用しているApache 2.0とは異なり、以下のような特徴があります。

商用利用は可能：ダウンロード、デプロイ、ファインチューニングが許可されている
セーフティガードレールの維持義務：モデルに組み込まれた安全機能を迂回・無効化した場合、実質的に同等のガードレールを実装する必要がある。これを怠るとライセンス権利が自動終了する
輸出規制への遵守義務：米国輸出管理規則（EAR）および外国資産管理室（OFAC）の規制を含む、適用されるすべての輸出・貿易・経済制裁に関する法律を遵守する必要がある

輸出規制への遵守義務については難しくてよく分かりませんが、Apache 2.0と比べると、コンプライアンスと安全性に関してより厳格な制約があるみたいです。企業での導入を検討する際は、法務部門と確認しておくのが無難そうです。

主要スペック

項目	値
総パラメータ数	31.6B
アクティブパラメータ数	3.2B（埋め込み層込みで3.6B）
コンテキスト長	最大1Mトークン
アーキテクチャ	Hybrid Mamba-Transformer + MoE + GQA
量子化	FP8
ライセンス	NVIDIA OMLA（商用利用可、ガードレール維持義務あり）

出典: Nemotron 3 Nano Technical Report⁴

Nemotron 3 Nanoの最大の強みは、Hybrid Mamba-Transformerによる高精度と高スループットの両立や1Mトークンのコンテキスト長です。これは、大量のドキュメントの分析や、長い対話履歴を踏まえたエージェントタスクに適していると言えそうです。

2. Nemotron 3 Nanoの全体像

2-1. Nemotron 3 Nanoの良さ

ここでは、Nemotron 3 Nanoを支える技術要素をアーキテクチャと学習/推論最適化に分けて見ていきます。

アーキテクチャ編

Hybrid（Mamba-2 + Transformer）

Nemotron 3 Nanoは、状態空間モデル（SSM）の一種であるMamba-2と、おなじみのTransformerを組み合わせたハイブリッドアーキテクチャを採用しています。

この組み合わせなのは、それぞれの得意分野が違うからです。

Mamba-2：入力が長くなっても計算量が線形（O(N)）にしか増えない。長文処理に強く、推論時のキャッシュサイズも一定
Transformer：トークン間の複雑な関係を捉える能力が高い。文脈理解に優れるが、計算量はO(N²)で増加する

両方の良いとこ取りをすることで、「長文と推論どちらも得意」を実現しています。

MoE（Mixture of Experts）

Nemotron 3 Nanoは、FeedForward Network（FFN）層を128個の「エキスパート」に分割し、入力トークンごとに関連性の高い6個だけをアクティブにするMoEアーキテクチャを採用しています。さらに、常時アクティブなShared experts 2個を持ち、ルーティングのばらつきがある局面でも一定の表現力を担保しています⁴。

これにより、モデル全体としては31.6Bのパラメータを持ちながら、推論時に計算するのは3.2B分だけで、大きなモデルの表現力を小さなモデル並みの推論コストで使える形になります。

GQA（Grouped Query Attention）

Nemotron 3 Nanoは、複数のQueryヘッドが1つのKey/Valueヘッドを共有するGQAを採用しています。Nemotron 3 NanoではKVヘッドを2グループに絞り込んでいます⁴。

これにより、推論時にメモリを食う「KVキャッシュ」のサイズを大幅に削減し、長い文章を生成するときのスループット向上に貢献しています。

学習/推論最適化編

事前学習

Nemotron 3 Nanoは、25兆トークンという膨大なデータで事前学習されています。うち3兆以上は新規のユニークなトークンとのことです⁴。

長文対応はアーキテクチャだけでなく、学習面でも工夫されています。事前学習の末尾に**Long-Context Phase（LC-Phase）**を追加し、継続事前学習（CPT）で長文能力を付与しています。LC-Phaseでは512kトークン長のシーケンスを混ぜた学習や、最大256kの合成retrievalデータの投入などが行われています⁴。

事後学習

エージェントタスクに焦点を当てた教師ありファインチューニング(SFT)と、複数環境での強化学習（RLVR、RLHF）をしています。単なるテキスト生成ではなく、実際にタスクを遂行する能力が学習されています⁴。

Selective Quantization

BF16からFP8への量子化に対応していますが、ここにも工夫があります。精度劣化に敏感なAttention層などはBF16のまま残し、それ以外をFP8にするSelective Quantizationを採用しています⁴。全体の精度を大きく損なわずに、メモリ使用量と推論速度を改善しています。

まとめ

Mamba-2とTransformerのハイブリッド構造で長文処理と高スループットを両立
MoEで大きなモデルの能力を低い推論コストで実現
大規模な事前・事後学習（LC-Phase含む）でエージェントとしての能力を強化
Selective Quantizationで精度とメモリ/推論効率のバランスを最適化

2-2. gpt-oss-20B-A4B、Qwen3-30B-A3B-Thinking-2507と比較する

主要なオープンウェイトの競合モデルとNemotron 3 Nanoを比較してみます。

なお、Qwen3については無印版（Qwen3-30B-A3B）ではなく、2025年7月にリリースされたThinking-2507版を比較対象としています。無印版は思考モード（Thinking）と非思考モード（Non-Thinking）を切り替える設計でしたが、2507版ではThinking専用とInstruct専用に分離され、それぞれの用途に最適化されています。ベンチマークグラフでもThinking-2507が使用されているため、こちらを採用しました。

比較表

特徴	Nemotron-3-Nano-30B-A3B	gpt-oss-20B-A4B	Qwen3-30B-A3B-Thinking-2507
開発企業	NVIDIA	OpenAI	Alibaba Cloud
アーキテクチャ	Hybrid Mamba-Transformer + MoE + GQA	MoE + Transformer + GQA	MoE + Transformer + GQA
総/アクティブパラメータ	31.6B / 3.2B	20.9B / 3.6B	30.5B / 3.3B
Routed / Activated / Shared experts	128 / 6 / 2	32 / 4 / 0	128 / 8 / 0
KVヘッド数（GQA）	2グループ	8グループ	4グループ
コンテキスト長	最大1M	128K（131,072トークン）	262k（ネイティブ）
事前学習データ	25兆トークン	情報なし	36兆トークン
量子化	FP8 （Selective Quantization）	MXFP4	FP8
ライセンス	NVIDIA OMLA	Apache 2.0	Apache 2.0

出典: Nemotron 3 Nano Technical Report⁴, gpt-oss Model Card⁵, Qwen3 Technical Report⁶, Qwen3-30B-A3B-Thinking-2507 Model Card⁷

比較表から読み取れるポイント

アーキテクチャの違い

gpt ossとQwen3は純粋なTransformerベースを採用していますが、Nemotron 3 NanoだけがHybrid Mamba-Transformerを採用しています。この違いが、コンテキスト長や長文処理の設計に大きく影響しています。

コンテキスト長の差

Nemotron 3 Nanoの最大1Mトークンは、gpt ossの128Kを大きく上回ります。Qwen3-30B-A3B-Thinking-2507もネイティブで262kトークンまで対応可能ですが、Nemotron 3 NanoはMamba-2の採用により、長文を効率的に処理できる点が異なります。

MoEの設計思想

Expert数はNemotron 3 Nanoが128、gpt ossが32、Qwen3が128と異なります。活性化数もNemotron 3 Nanoは6、gpt ossは4、Qwen3は8。活性化数が少ないほど推論コストは下がりますが、表現力とのトレードオフがあります。
また、Nemotron 3 NanoはShared experts（常時アクティブなエキスパート）を2個持っており、精度と安定性の向上を狙った設計になっています。gpt ossとQwen3はrouted-onlyアーキテクチャで、Shared expertsを持ちません。

ライセンス

gpt ossとQwen3はApache 2.0で、商用利用の自由度が高いです⁸。Nemotron 3 NanoはNVIDIA OMLAで商用利用可能ですが、セーフティガードレールの維持義務や輸出規制への遵守義務があります。

ベンチマーク比較

次に、NVIDIAが公開しているベンチマーク結果を見てみます。

出典: NVIDIA Nemotron 3 Family of Models¹

このグラフは、Nemotron-3-Nano-30B-A3B（緑色）、Qwen3-30B-A3B-Thinking-2507（青色）、gpt-oss-20B-A4B（灰色）の3モデルを比較したものです。左側が精度（Accuracy）、右側が相対スループットを示しています。

精度（Accuracy）

Arena-Hard-v2-Avg（Chat）：Nemotron 3 Nanoが67.7%でトップ。Qwen3は57.8%、gpt-ossは48.5%
AIME25（Math）：Nemotron 3 Nanoは89.1%、Qwen3は85.0%、gpt-ossは91.7%。ツール使用時はNemotron 3 Nanoが99.2%を記録
IFBench（Inst. Following）：Nemotron 3 Nanoが71.5%で最高。Qwen3は51.0%、gpt-ossは65.0%
τ²-Bench（Tool Use）：3モデルとも47〜49%で拮抗
SWE-Bench（Coding）：Nemotron 3 Nanoが38.8%でリード。Qwen3は22.0%、gpt-ossは34.0%
LCB v6（Coding）：Nemotron 3 Nanoが68.2%、Qwen3が66.0%、gpt-ossが61.0%
RULER @ 1M（Long Ctx）：Nemotron 3 Nanoが86.3%を記録。Qwen3は77.5%、gpt-ossはN/A（1Mトークン非対応）

スループット（Throughput）

8K入力/16K出力の条件で、Nemotron 3 NanoはQwen3の3.3倍、gpt-ossの2.2倍（3.3÷1.5）のスループットを達成しています。

測定条件は以下の通りです⁴：

ハードウェア：単一のH200 GPU
推論エンジン：vLLMおよびTRT-LLMで測定し、各モデルで最良の結果を採用
量子化：Nemotron 3 NanoとQwen3はFP8、gpt-ossはMXFP4（weight）+ BF16（activation）

Hybrid Mamba-TransformerやMoE、Selective Quantizationによる精度と効率の最適化という設計思想が、数値として表れていることがわかります。

3. Nemotron 3 Nanoに使われている技術たち

ここからは、Nemotron 3 Nanoを支える3つの技術(MoE、Hybrid Mamba-Transformer、GQA)について、もう少し詳しく見ていきます。

3-1. MoEとは

MoE（Mixture of Experts）は、単一の密なモデルを構築する代わりに、複数の専門化されたFFN層（エキスパート）を構築し、ゲーティング機構によって入力に応じて動的にエキスパートを選択・活性化するスパースなアーキテクチャです。

MoEの仕組み

入力（hidden states）
         │
         ▼
┌─────────────────────────────────────┐
│         ゲーティングネットワーク      │
│（各エキスパートへのルーティング重み算出）│
│         softmax(W_g · x)            │
└─────────────────────────────────────┘
         │
         ▼ Top-K選択（例：K=3）
         │
    ┌────┼────┐
    ▼    ▼    ▼
┌──────┐┌──────┐┌──────┐┌──────┐
│Expert││Expert││Expert││Shared│  ※ 非選択のExpertは
│  #3  ││  #7  ││ #42  ││Expert│    計算をスキップ
│(FFN) ││(FFN) ││(FFN) ││(常時)│
└──┬───┘└──┬───┘└──┬───┘└──┬───┘
   │       │       │       │
   ▼       ▼       ▼       ▼
┌─────────────────────────────────────┐
│        重み付き線形結合              │
│  output = Σ g(x)_i · Expert_i(x)    │
└─────────────────────────────────────┘
         │
         ▼
        出力

MoEの処理フローを順に追っていきます。

入力の受け取り：前の層のhidden statesがMoE層に入力されます
ゲーティング（ルーティング）：小さなネットワーク（ゲート）が、入力に基づいて各エキスパートへのルーティング重みを計算します。softmax関数で正規化され、どのエキスパートがどの程度関連性が高いかを示すスコアが出力されます
Top-K選択：ルーティング重みが高い上位K個のエキスパートのみを選択します。Nemotron 3 Nanoの場合、128個のエキスパートから6個を選択
エキスパートによる処理：選択されたエキスパート（それぞれがFFN）が入力を処理します。選択されなかったエキスパートは計算をスキップするため、計算コストが削減されます
結果の統合：各エキスパートの出力を、ルーティング重みで重み付けして線形結合し、最終的な出力を生成します

この仕組みにより、モデル全体では大きな知識（31.6Bパラメータ）を持ちながら、個々の推論では一部（3.2Bパラメータ）しか使わないので計算コストを抑えられます。

アーキテクチャの違い

MoEには実装のバリエーションがあります。

routed-onlyアーキテクチャ（gpt-oss、Qwen3が採用）

すべてのエキスパートがルーターの選択対象となります。入力に応じて最適なエキスパートが動的に選ばれ、処理を担当します。

shared expertsアーキテクチャ（Nemotron 3 Nanoが採用）

ルーティングされるエキスパートとは別に、常時アクティブな「Shared experts」を持ちます。Nemotron 3 Nanoの場合、Routed experts 128個 + Shared experts 2個という構成です⁴。

Shared expertsは、ルーティングのばらつきがある局面でも一定の表現力を担保し、精度向上に寄与する意図で採用されています。

3-2. Mamba-2を使ったHybrid Mamba-Transformer Architectureとは

従来のTransformerは、入力が長くなると計算量がO(N²)で増えるという弱点があります。これを克服するために導入されたのが、状態空間モデル（SSM）ベースのMambaです。MambaはO(N)の計算量で動作するため、長文処理において大きなアドバンテージを持ちます⁹。

アーキテクチャの構成

Nemotron 3 Nanoは、Mamba-2層とMoE層を交互に、数回に一回Attention層を配置するアーキテクチャを採用しています。

出典: Nemotron 3 Nano Technical Report⁴, Figure 2

Mamba-2の役割

計算量がシーケンス長Nに対して線形(O(N))で、シーケンスが長くなっても計算コストを抑えられる
長文の効率的な処理とスループット向上

Transformerの役割

トークン間の複雑な関係を捉える
高度な文脈理解を担当（ただし計算量はO(N²)）

両者を組み合わせることで、効率と表現力を両立しています。

位置埋め込みを使わない設計

面白いと感じたのは、Nemotron 3 Nanoが位置埋め込み（positional embeddings）を使っていない点です⁴。

通常のTransformerでは、トークンの順序情報を伝えるために位置埋め込みが必要です。しかしMambaは、内部の状態（state）で順序情報を管理できるため、位置埋め込みなしでも上手く動きます。

これにより、学習時に見たことのない長さのシーケンスにも対応しやすくなり、1Mトークンという長文が扱えるようになっています。

他のMambaハイブリッドアーキテクチャとの違い

Mambaを採用したハイブリッドアーキテクチャは他にも存在します。たとえば、Preferred Networksが開発したPLaMo-2も、Samba（Mamba + Sliding Window Attention）というハイブリッド構成を採用しています¹⁰。

ただし、PLaMo-2はSliding Window Attentionのウィンドウサイズ外の情報を取得するタスク（長文情報検索）で限界があり、継続事前学習（CPT）の段階でAttentionに移行しました¹⁰。

3-3. GQAとは

GQA（Grouped Query Attention）は、Transformerの推論時に発生するメモリボトルネックを解消する技術です¹¹。

Attentionの基本とKVキャッシュ問題

TransformerのSelf Attention機構では、入力からQuery（Q）、Key（K）、Value（V）の3つのベクトルを計算し、Qと全てのKの類似度を計算して、その重みでVを集約します。

テキスト生成時、過去のトークンのKeyとValueは再計算を避けるためにGPUメモリにキャッシュされます。これが「KVキャッシュ」です。シーケンスが長くなるほどKVキャッシュは肥大化し、メモリを圧迫し、推論速度を低下させます。

Multi-Head Attention（MHA）の問題

標準的なMHAでは、各Attentionヘッドが独立したQ、K、Vを持ちます。例えばヘッド数が32なら、K、Vも32セット必要で、KVキャッシュのサイズが大きくなります。

GQAによる解決策

GQAでは、複数のQueryヘッドが1つのKey/Valueヘッドを共有することで、KVキャッシュのサイズを削減します。

Attentionタイプ	Queryヘッド数	Key/Valueヘッド数	KVキャッシュサイズ
MHA（Multi-Head）	N	N	大
GQA（Grouped-Query）	N	M（M < N）	小

Nemotron 3 NanoはKVヘッドを2グループに絞り込んでおり、これは比較対象のgpt-oss（8グループ）やQwen3（4グループ）よりも大きな削減です⁴⁵⁷。

KVキャッシュサイズが削減されることで、メモリ使用量が減り、より長いシーケンスを処理でき、推論速度も向上します。高スループットかつ1Mトークンという超長文を扱うためには、このレベルのメモリ効率化が不可欠だったと考えられます。

4. 結論

この記事では、Nemotron 3 Nanoの技術的な特徴を、gpt-ossやQwen3との比較を通じて整理してきました。

Nemotron 3 Nanoの強み

1. 効率と性能の両立

Hybrid Mamba-Transformer + MoE + GQAという組み合わせで、30Bクラスのモデルでありながら、競合を上回るスループットと高い精度を両立しています。

2. 圧倒的な長文対応

1Mトークンというコンテキスト長は、他モデルを大きく上回ります。長大なドキュメントをまるごと読み込むタスクや、複雑な多段階推論を実行できそうです。

3. 透明性の高い公開形態

重み、学習レシピ、データセットの大部分が公開されており、中身を確認しながら使えます。ファインチューニングや研究用途での活用がしやすい形態です。

所感

Nemotron 3 Nanoを調べていて感じたのは、実用的なAIエージェント利用を目的として、高精度かつ高スループットを目指して開発されている印象を受けました。

Hybrid Mamba-Transformer、MoE、Grouped Query Attention、Selective Quantization、LC-Phaseによる長文学習といった技術のすべてが「推論コストを下げながら性能を維持する」という一点に収斂しているように感じました。

ただ、実際にNemotron 3 Nanoとgpt-oss-20Bの出力を比較するために、日本語での技術解説をさせたところ、gpt-ossの方が構造化された分かりやすい文章を生成する印象でした。ただし、これはあくまで短いプロンプトを使用した場合の個人的な印象なので、実際のAIエージェント用途を想定した長いコンテキストでの日本語性能では変わる可能性があると思います。推論スループットは体感ではそこまで差を感じませんでしたが、APIを介した利用だったことも影響しているかもしれません。コンテキスト長が長い場合に日本語性能がどうなるか、今後検証していきたいです。

Nemotron 3 Nanoは、LLMの設計思想が「実用性重視」へシフトしていることを象徴するモデルだと思いますので、今後の動向も引き続き追っていきたいと思います。

※記載されている会社名、製品名、サービス名は、各社の商標または登録商標です。

NVIDIA Nemotron 3 Family of Models, https://research.nvidia.com/labs/nemotron/Nemotron-3/ (参照: 2025-12-22) ↩ ↩²
nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16, Hugging Face, https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 (参照: 2025-12-22) ↩
NVIDIA Open Model License Agreement, https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/ (参照: 2025-12-22) ↩
NVIDIA, “Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning”, 2025-12-15, https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Nano-Technical-Report.pdf (参照: 2025-12-22) ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰ ↩¹¹ ↩¹² ↩¹³
OpenAI, “gpt-oss-120b & gpt-oss-20b Model Card”, arXiv:2508.10925, 2025-08-05, https://arxiv.org/abs/2508.10925 (参照: 2025-12-22) ↩ ↩²
Qwen Team, “Qwen3 Technical Report”, arXiv:2505.09388, 2025-05-14, https://arxiv.org/abs/2505.09388 (参照: 2025-12-22) ↩
Qwen/Qwen3-30B-A3B-Thinking-2507, Hugging Face, https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507 (参照: 2025-12-22) ↩ ↩²
OpenAI, “Introducing gpt-oss”, 2025-08, https://openai.com/index/introducing-gpt-oss/ (参照: 2025-12-22) ↩
Dao & Gu, “Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality”, arXiv:2405.21060, 2024, https://arxiv.org/abs/2405.21060 (参照: 2025-12-22) ↩
Preferred Networks, “PLaMo-2 Technical Report”, arXiv:2509.04897, 2025-09, https://arxiv.org/abs/2509.04897 (参照: 2025-12-22) ↩ ↩²
Ainslie et al., “GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints”, arXiv:2305.13245, 2023, https://arxiv.org/abs/2305.13245 (参照: 2025-12-22) ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up