この記事はNTTドコモソリューションズ Advent Calendar 2025 24日目の記事です。
はじめに
NTTドコモソリューションズの大森です。
この記事では、2025年12月15日にNVIDIAが発表したNemotron 3 Nanoについて、gpt-oss 20bやQwen3 30B-A3Bといった競合モデルと比較しながら、その特徴と強みを整理していきます。
「Nemotron 3 Nanoって何がすごいの?」「他のオープンウェイトモデルとどう違うの?」という疑問を解消できる内容を目指しました。
目次
1. NVIDIA Nemotron 3 Nanoとは?
2. Nemotron 3 Nanoの全体像
2-1. Nemotron 3 Nanoの良さ
2-2. gpt-oss-20B-A4B、Qwen3-30B-A3B-Thinking-2507と比較する
3. Nemotron 3 Nanoに使われている技術たち
3-1. MoEとは
3-2. Hybrid Mamba-Transformer architectureとは
3-3. GQAとは
4. 結論
1. NVIDIA Nemotron 3 Nanoとは?
Nemotron 3 Nanoは、NVIDIAが2025年12月15日に公開したオープンウェイトの大規模言語モデル(LLM)です。
最大の特徴は、ベンチマークスコアを追いかけるだけでなく、実際に使うときの「効率」と「エージェントとしての賢さ」を重視して設計されていること。ツールを呼び出したり、複数ステップのタスクを計画・実行したりといった、実用的なAIエージェントとしての利用が想定されているそうです。
なぜ「効率」にこだわるのか
LLMを本番環境で動かすとき、ネックになるのは「推論コスト」です。いくら賢くても、1リクエストあたりのコストが高すぎたり、スループットが出なかったりすると、サービスとして成り立ちません。
Nemotron 3 Nanoは、この問題に正面から向き合っています。高い精度を保ちながら、推論スループットを最大化すること。これが設計の軸になっています。オンプレミス環境や、大量のリクエストをさばく必要があるサービスで、高品質なレスポンスを返せるモデルを目指して開発されています。
Nemotronファミリーの展開
「Nano」という名前からわかるように、これはNemotron 3ファミリーの中で最もコンパクトなモデルです。NVIDIAの公式ページによると、今後Nemotron 3 SuperやNemotron 3 Ultraといった上位モデルも公開予定とのこと1。用途や計算リソースに応じて選べるようになりそうです。
Nemotron 3 Nanoのライセンス
Hugging Faceでは、学習済みの重み(Baseモデル、BF16版、FP8量子化版)に加えて、学習レシピ、関連コード、学習データの大部分まで公開されています2。「中身がブラックボックスで困る」という問題が起きにくく、研究者や開発者にとってはありがたい公開形態です。
ライセンスは**NVIDIA Open Model License Agreement(OMLA)**というNVIDIA独自のライセンスが適用されています3。gpt ossやQwen3が採用しているApache 2.0とは異なり、以下のような特徴があります。
- 商用利用は可能:ダウンロード、デプロイ、ファインチューニングが許可されている
- セーフティガードレールの維持義務:モデルに組み込まれた安全機能を迂回・無効化した場合、実質的に同等のガードレールを実装する必要がある。これを怠るとライセンス権利が自動終了する
- 輸出規制への遵守義務:米国輸出管理規則(EAR)および外国資産管理室(OFAC)の規制を含む、適用されるすべての輸出・貿易・経済制裁に関する法律を遵守する必要がある
輸出規制への遵守義務については難しくてよく分かりませんが、Apache 2.0と比べると、コンプライアンスと安全性に関してより厳格な制約があるみたいです。企業での導入を検討する際は、法務部門と確認しておくのが無難そうです。
主要スペック
| 項目 | 値 |
|---|---|
| 総パラメータ数 | 31.6B |
| アクティブパラメータ数 | 3.2B(埋め込み層込みで3.6B) |
| コンテキスト長 | 最大1Mトークン |
| アーキテクチャ | Hybrid Mamba-Transformer + MoE + GQA |
| 量子化 | FP8 |
| ライセンス | NVIDIA OMLA(商用利用可、ガードレール維持義務あり) |
出典: Nemotron 3 Nano Technical Report4
Nemotron 3 Nanoの最大の強みは、Hybrid Mamba-Transformerによる高精度と高スループットの両立や1Mトークンのコンテキスト長です。これは、大量のドキュメントの分析や、長い対話履歴を踏まえたエージェントタスクに適していると言えそうです。
2. Nemotron 3 Nanoの全体像
2-1. Nemotron 3 Nanoの良さ
ここでは、Nemotron 3 Nanoを支える技術要素をアーキテクチャと学習/推論最適化に分けて見ていきます。
アーキテクチャ編
Hybrid(Mamba-2 + Transformer)
Nemotron 3 Nanoは、状態空間モデル(SSM)の一種であるMamba-2と、おなじみのTransformerを組み合わせたハイブリッドアーキテクチャを採用しています。
この組み合わせなのは、それぞれの得意分野が違うからです。
- Mamba-2:入力が長くなっても計算量が線形(O(N))にしか増えない。長文処理に強く、推論時のキャッシュサイズも一定
- Transformer:トークン間の複雑な関係を捉える能力が高い。文脈理解に優れるが、計算量はO(N²)で増加する
両方の良いとこ取りをすることで、「長文と推論どちらも得意」を実現しています。
MoE(Mixture of Experts)
Nemotron 3 Nanoは、FeedForward Network(FFN)層を128個の「エキスパート」に分割し、入力トークンごとに関連性の高い6個だけをアクティブにするMoEアーキテクチャを採用しています。さらに、常時アクティブなShared experts 2個を持ち、ルーティングのばらつきがある局面でも一定の表現力を担保しています4。
これにより、モデル全体としては31.6Bのパラメータを持ちながら、推論時に計算するのは3.2B分だけで、大きなモデルの表現力を小さなモデル並みの推論コストで使える形になります。
GQA(Grouped Query Attention)
Nemotron 3 Nanoは、複数のQueryヘッドが1つのKey/Valueヘッドを共有するGQAを採用しています。Nemotron 3 NanoではKVヘッドを2グループに絞り込んでいます4。
これにより、推論時にメモリを食う「KVキャッシュ」のサイズを大幅に削減し、長い文章を生成するときのスループット向上に貢献しています。
学習/推論最適化編
事前学習
Nemotron 3 Nanoは、25兆トークンという膨大なデータで事前学習されています。うち3兆以上は新規のユニークなトークンとのことです4。
長文対応はアーキテクチャだけでなく、学習面でも工夫されています。事前学習の末尾に**Long-Context Phase(LC-Phase)**を追加し、継続事前学習(CPT)で長文能力を付与しています。LC-Phaseでは512kトークン長のシーケンスを混ぜた学習や、最大256kの合成retrievalデータの投入などが行われています4。
事後学習
エージェントタスクに焦点を当てた教師ありファインチューニング(SFT)と、複数環境での強化学習(RLVR、RLHF)をしています。単なるテキスト生成ではなく、実際にタスクを遂行する能力が学習されています4。
Selective Quantization
BF16からFP8への量子化に対応していますが、ここにも工夫があります。精度劣化に敏感なAttention層などはBF16のまま残し、それ以外をFP8にするSelective Quantizationを採用しています4。全体の精度を大きく損なわずに、メモリ使用量と推論速度を改善しています。
まとめ
- Mamba-2とTransformerのハイブリッド構造で長文処理と高スループットを両立
- MoEで大きなモデルの能力を低い推論コストで実現
- 大規模な事前・事後学習(LC-Phase含む)でエージェントとしての能力を強化
- Selective Quantizationで精度とメモリ/推論効率のバランスを最適化
2-2. gpt-oss-20B-A4B、Qwen3-30B-A3B-Thinking-2507と比較する
主要なオープンウェイトの競合モデルとNemotron 3 Nanoを比較してみます。
なお、Qwen3については無印版(Qwen3-30B-A3B)ではなく、2025年7月にリリースされたThinking-2507版を比較対象としています。無印版は思考モード(Thinking)と非思考モード(Non-Thinking)を切り替える設計でしたが、2507版ではThinking専用とInstruct専用に分離され、それぞれの用途に最適化されています。ベンチマークグラフでもThinking-2507が使用されているため、こちらを採用しました。
比較表
| 特徴 | Nemotron-3-Nano-30B-A3B | gpt-oss-20B-A4B | Qwen3-30B-A3B-Thinking-2507 |
|---|---|---|---|
| 開発企業 | NVIDIA | OpenAI | Alibaba Cloud |
| アーキテクチャ | Hybrid Mamba-Transformer + MoE + GQA | MoE + Transformer + GQA | MoE + Transformer + GQA |
| 総/アクティブパラメータ | 31.6B / 3.2B | 20.9B / 3.6B | 30.5B / 3.3B |
| Routed / Activated / Shared experts | 128 / 6 / 2 | 32 / 4 / 0 | 128 / 8 / 0 |
| KVヘッド数(GQA) | 2グループ | 8グループ | 4グループ |
| コンテキスト長 | 最大1M | 128K(131,072トークン) | 262k(ネイティブ) |
| 事前学習データ | 25兆トークン | 情報なし | 36兆トークン |
| 量子化 | FP8 (Selective Quantization) |
MXFP4 | FP8 |
| ライセンス | NVIDIA OMLA | Apache 2.0 | Apache 2.0 |
出典: Nemotron 3 Nano Technical Report4, gpt-oss Model Card5, Qwen3 Technical Report6, Qwen3-30B-A3B-Thinking-2507 Model Card7
比較表から読み取れるポイント
アーキテクチャの違い
gpt ossとQwen3は純粋なTransformerベースを採用していますが、Nemotron 3 NanoだけがHybrid Mamba-Transformerを採用しています。この違いが、コンテキスト長や長文処理の設計に大きく影響しています。
コンテキスト長の差
Nemotron 3 Nanoの最大1Mトークンは、gpt ossの128Kを大きく上回ります。Qwen3-30B-A3B-Thinking-2507もネイティブで262kトークンまで対応可能ですが、Nemotron 3 NanoはMamba-2の採用により、長文を効率的に処理できる点が異なります。
MoEの設計思想
Expert数はNemotron 3 Nanoが128、gpt ossが32、Qwen3が128と異なります。活性化数もNemotron 3 Nanoは6、gpt ossは4、Qwen3は8。活性化数が少ないほど推論コストは下がりますが、表現力とのトレードオフがあります。
また、Nemotron 3 NanoはShared experts(常時アクティブなエキスパート)を2個持っており、精度と安定性の向上を狙った設計になっています。gpt ossとQwen3はrouted-onlyアーキテクチャで、Shared expertsを持ちません。
ライセンス
gpt ossとQwen3はApache 2.0で、商用利用の自由度が高いです8。Nemotron 3 NanoはNVIDIA OMLAで商用利用可能ですが、セーフティガードレールの維持義務や輸出規制への遵守義務があります。
ベンチマーク比較
次に、NVIDIAが公開しているベンチマーク結果を見てみます。
出典: NVIDIA Nemotron 3 Family of Models1
このグラフは、Nemotron-3-Nano-30B-A3B(緑色)、Qwen3-30B-A3B-Thinking-2507(青色)、gpt-oss-20B-A4B(灰色)の3モデルを比較したものです。左側が精度(Accuracy)、右側が相対スループットを示しています。
精度(Accuracy)
- Arena-Hard-v2-Avg(Chat):Nemotron 3 Nanoが67.7%でトップ。Qwen3は57.8%、gpt-ossは48.5%
- AIME25(Math):Nemotron 3 Nanoは89.1%、Qwen3は85.0%、gpt-ossは91.7%。ツール使用時はNemotron 3 Nanoが99.2%を記録
- IFBench(Inst. Following):Nemotron 3 Nanoが71.5%で最高。Qwen3は51.0%、gpt-ossは65.0%
- τ²-Bench(Tool Use):3モデルとも47〜49%で拮抗
- SWE-Bench(Coding):Nemotron 3 Nanoが38.8%でリード。Qwen3は22.0%、gpt-ossは34.0%
- LCB v6(Coding):Nemotron 3 Nanoが68.2%、Qwen3が66.0%、gpt-ossが61.0%
- RULER @ 1M(Long Ctx):Nemotron 3 Nanoが86.3%を記録。Qwen3は77.5%、gpt-ossはN/A(1Mトークン非対応)
スループット(Throughput)
8K入力/16K出力の条件で、Nemotron 3 NanoはQwen3の3.3倍、gpt-ossの2.2倍(3.3÷1.5)のスループットを達成しています。
測定条件は以下の通りです4:
- ハードウェア:単一のH200 GPU
- 推論エンジン:vLLMおよびTRT-LLMで測定し、各モデルで最良の結果を採用
- 量子化:Nemotron 3 NanoとQwen3はFP8、gpt-ossはMXFP4(weight)+ BF16(activation)
Hybrid Mamba-TransformerやMoE、Selective Quantizationによる精度と効率の最適化という設計思想が、数値として表れていることがわかります。
3. Nemotron 3 Nanoに使われている技術たち
ここからは、Nemotron 3 Nanoを支える3つの技術(MoE、Hybrid Mamba-Transformer、GQA)について、もう少し詳しく見ていきます。
3-1. MoEとは
MoE(Mixture of Experts)は、単一の密なモデルを構築する代わりに、複数の専門化されたFFN層(エキスパート)を構築し、ゲーティング機構によって入力に応じて動的にエキスパートを選択・活性化するスパースなアーキテクチャです。
MoEの仕組み
入力(hidden states)
│
▼
┌─────────────────────────────────────┐
│ ゲーティングネットワーク │
│(各エキスパートへのルーティング重み算出)│
│ softmax(W_g · x) │
└─────────────────────────────────────┘
│
▼ Top-K選択(例:K=3)
│
┌────┼────┐
▼ ▼ ▼
┌──────┐┌──────┐┌──────┐┌──────┐
│Expert││Expert││Expert││Shared│ ※ 非選択のExpertは
│ #3 ││ #7 ││ #42 ││Expert│ 計算をスキップ
│(FFN) ││(FFN) ││(FFN) ││(常時)│
└──┬───┘└──┬───┘└──┬───┘└──┬───┘
│ │ │ │
▼ ▼ ▼ ▼
┌─────────────────────────────────────┐
│ 重み付き線形結合 │
│ output = Σ g(x)_i · Expert_i(x) │
└─────────────────────────────────────┘
│
▼
出力
MoEの処理フローを順に追っていきます。
- 入力の受け取り:前の層のhidden statesがMoE層に入力されます
- ゲーティング(ルーティング):小さなネットワーク(ゲート)が、入力に基づいて各エキスパートへのルーティング重みを計算します。softmax関数で正規化され、どのエキスパートがどの程度関連性が高いかを示すスコアが出力されます
- Top-K選択:ルーティング重みが高い上位K個のエキスパートのみを選択します。Nemotron 3 Nanoの場合、128個のエキスパートから6個を選択
- エキスパートによる処理:選択されたエキスパート(それぞれがFFN)が入力を処理します。選択されなかったエキスパートは計算をスキップするため、計算コストが削減されます
- 結果の統合:各エキスパートの出力を、ルーティング重みで重み付けして線形結合し、最終的な出力を生成します
この仕組みにより、モデル全体では大きな知識(31.6Bパラメータ)を持ちながら、個々の推論では一部(3.2Bパラメータ)しか使わないので計算コストを抑えられます。
アーキテクチャの違い
MoEには実装のバリエーションがあります。
routed-onlyアーキテクチャ(gpt-oss、Qwen3が採用)
すべてのエキスパートがルーターの選択対象となります。入力に応じて最適なエキスパートが動的に選ばれ、処理を担当します。
shared expertsアーキテクチャ(Nemotron 3 Nanoが採用)
ルーティングされるエキスパートとは別に、常時アクティブな「Shared experts」を持ちます。Nemotron 3 Nanoの場合、Routed experts 128個 + Shared experts 2個という構成です4。
Shared expertsは、ルーティングのばらつきがある局面でも一定の表現力を担保し、精度向上に寄与する意図で採用されています。
3-2. Mamba-2を使ったHybrid Mamba-Transformer Architectureとは
従来のTransformerは、入力が長くなると計算量がO(N²)で増えるという弱点があります。これを克服するために導入されたのが、状態空間モデル(SSM)ベースのMambaです。MambaはO(N)の計算量で動作するため、長文処理において大きなアドバンテージを持ちます9。
アーキテクチャの構成
Nemotron 3 Nanoは、Mamba-2層とMoE層を交互に、数回に一回Attention層を配置するアーキテクチャを採用しています。

出典: Nemotron 3 Nano Technical Report4, Figure 2
Mamba-2の役割
- 計算量がシーケンス長Nに対して線形(O(N))で、シーケンスが長くなっても計算コストを抑えられる
- 長文の効率的な処理とスループット向上
Transformerの役割
- トークン間の複雑な関係を捉える
- 高度な文脈理解を担当(ただし計算量はO(N²))
両者を組み合わせることで、効率と表現力を両立しています。
位置埋め込みを使わない設計
面白いと感じたのは、Nemotron 3 Nanoが位置埋め込み(positional embeddings)を使っていない点です4。
通常のTransformerでは、トークンの順序情報を伝えるために位置埋め込みが必要です。しかしMambaは、内部の状態(state)で順序情報を管理できるため、位置埋め込みなしでも上手く動きます。
これにより、学習時に見たことのない長さのシーケンスにも対応しやすくなり、1Mトークンという長文が扱えるようになっています。
他のMambaハイブリッドアーキテクチャとの違い
Mambaを採用したハイブリッドアーキテクチャは他にも存在します。たとえば、Preferred Networksが開発したPLaMo-2も、Samba(Mamba + Sliding Window Attention)というハイブリッド構成を採用しています10。
ただし、PLaMo-2はSliding Window Attentionのウィンドウサイズ外の情報を取得するタスク(長文情報検索)で限界があり、継続事前学習(CPT)の段階でAttentionに移行しました10。
3-3. GQAとは
GQA(Grouped Query Attention)は、Transformerの推論時に発生するメモリボトルネックを解消する技術です11。
Attentionの基本とKVキャッシュ問題
TransformerのSelf Attention機構では、入力からQuery(Q)、Key(K)、Value(V)の3つのベクトルを計算し、Qと全てのKの類似度を計算して、その重みでVを集約します。
テキスト生成時、過去のトークンのKeyとValueは再計算を避けるためにGPUメモリにキャッシュされます。これが「KVキャッシュ」です。シーケンスが長くなるほどKVキャッシュは肥大化し、メモリを圧迫し、推論速度を低下させます。
Multi-Head Attention(MHA)の問題
標準的なMHAでは、各Attentionヘッドが独立したQ、K、Vを持ちます。例えばヘッド数が32なら、K、Vも32セット必要で、KVキャッシュのサイズが大きくなります。
GQAによる解決策
GQAでは、複数のQueryヘッドが1つのKey/Valueヘッドを共有することで、KVキャッシュのサイズを削減します。
| Attentionタイプ | Queryヘッド数 | Key/Valueヘッド数 | KVキャッシュサイズ |
|---|---|---|---|
| MHA(Multi-Head) | N | N | 大 |
| GQA(Grouped-Query) | N | M(M < N) | 小 |
Nemotron 3 NanoはKVヘッドを2グループに絞り込んでおり、これは比較対象のgpt-oss(8グループ)やQwen3(4グループ)よりも大きな削減です457。
KVキャッシュサイズが削減されることで、メモリ使用量が減り、より長いシーケンスを処理でき、推論速度も向上します。高スループットかつ1Mトークンという超長文を扱うためには、このレベルのメモリ効率化が不可欠だったと考えられます。
4. 結論
この記事では、Nemotron 3 Nanoの技術的な特徴を、gpt-ossやQwen3との比較を通じて整理してきました。
Nemotron 3 Nanoの強み
1. 効率と性能の両立
Hybrid Mamba-Transformer + MoE + GQAという組み合わせで、30Bクラスのモデルでありながら、競合を上回るスループットと高い精度を両立しています。
2. 圧倒的な長文対応
1Mトークンというコンテキスト長は、他モデルを大きく上回ります。長大なドキュメントをまるごと読み込むタスクや、複雑な多段階推論を実行できそうです。
3. 透明性の高い公開形態
重み、学習レシピ、データセットの大部分が公開されており、中身を確認しながら使えます。ファインチューニングや研究用途での活用がしやすい形態です。
所感
Nemotron 3 Nanoを調べていて感じたのは、実用的なAIエージェント利用を目的として、高精度かつ高スループットを目指して開発されている印象を受けました。
Hybrid Mamba-Transformer、MoE、Grouped Query Attention、Selective Quantization、LC-Phaseによる長文学習といった技術のすべてが「推論コストを下げながら性能を維持する」という一点に収斂しているように感じました。
ただ、実際にNemotron 3 Nanoとgpt-oss-20Bの出力を比較するために、日本語での技術解説をさせたところ、gpt-ossの方が構造化された分かりやすい文章を生成する印象でした。ただし、これはあくまで短いプロンプトを使用した場合の個人的な印象なので、実際のAIエージェント用途を想定した長いコンテキストでの日本語性能では変わる可能性があると思います。推論スループットは体感ではそこまで差を感じませんでしたが、APIを介した利用だったことも影響しているかもしれません。コンテキスト長が長い場合に日本語性能がどうなるか、今後検証していきたいです。
Nemotron 3 Nanoは、LLMの設計思想が「実用性重視」へシフトしていることを象徴するモデルだと思いますので、今後の動向も引き続き追っていきたいと思います。
※記載されている会社名、製品名、サービス名は、各社の商標または登録商標です。
-
NVIDIA Nemotron 3 Family of Models, https://research.nvidia.com/labs/nemotron/Nemotron-3/ (参照: 2025-12-22) ↩ ↩2
-
nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16, Hugging Face, https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 (参照: 2025-12-22) ↩
-
NVIDIA Open Model License Agreement, https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/ (参照: 2025-12-22) ↩
-
NVIDIA, “Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning”, 2025-12-15, https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Nano-Technical-Report.pdf (参照: 2025-12-22) ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13
-
OpenAI, “gpt-oss-120b & gpt-oss-20b Model Card”, arXiv:2508.10925, 2025-08-05, https://arxiv.org/abs/2508.10925 (参照: 2025-12-22) ↩ ↩2
-
Qwen Team, “Qwen3 Technical Report”, arXiv:2505.09388, 2025-05-14, https://arxiv.org/abs/2505.09388 (参照: 2025-12-22) ↩
-
Qwen/Qwen3-30B-A3B-Thinking-2507, Hugging Face, https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507 (参照: 2025-12-22) ↩ ↩2
-
OpenAI, “Introducing gpt-oss”, 2025-08, https://openai.com/index/introducing-gpt-oss/ (参照: 2025-12-22) ↩
-
Dao & Gu, “Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality”, arXiv:2405.21060, 2024, https://arxiv.org/abs/2405.21060 (参照: 2025-12-22) ↩
-
Preferred Networks, “PLaMo-2 Technical Report”, arXiv:2509.04897, 2025-09, https://arxiv.org/abs/2509.04897 (参照: 2025-12-22) ↩ ↩2
-
Ainslie et al., “GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints”, arXiv:2305.13245, 2023, https://arxiv.org/abs/2305.13245 (参照: 2025-12-22) ↩
