NVIDIA Nemotron 3 Super入門 — エージェント特化オープンLLMをAPIで活用する

Last updated at 2026-03-13Posted at 2026-03-13

はじめに

2026年3月11日、NVIDIA GTC 2026 にあわせて NVIDIA Nemotron 3 Super（nemotron-3-super-120b-a12b）が正式リリースされました。

このモデルはオープンウェイトでありながら、マルチエージェントシステムへの特化を前提に設計された点が特徴です。120B 総パラメータ・12B アクティブパラメータのハイブリッド Mamba-Transformer MoE アーキテクチャを採用し、前世代比で最大5倍のスループットを実現しています。

この記事では、公式ドキュメントと技術レポートに基づいて、Nemotron 3 Super のアーキテクチャ、API での利用方法、エージェント活用パターンを解説します。

この記事で学べること

Nemotron 3 Super のアーキテクチャ（Mamba-Transformer MoE の仕組み）
NVIDIA NIM API を使ったシンプルな呼び出し方法
enable_thinking と Budget-Controlled Reasoning の使い方
マルチエージェントシステムへの組み込みパターン

対象読者

オープンウェイト LLM でエージェントシステムを構築したい方
推論コスト・スループットを重視した LLM 選定を検討している方
Python で LLM API を呼び出す基本的な知識がある方

TL;DR

120B 総パラメータ・12B アクティブのハイブリッド MoE モデル（2026年3月11日リリース）
前世代比 最大5倍のスループット、1M トークンコンテキスト対応
オープンウェイト（NVIDIA Nemotron Open Model License、商用利用可）
NVIDIA NIM / HuggingFace / Vertex AI で即時利用可能
enable_thinking で推論モードのオン/オフを切り替え可能

アーキテクチャの概要

Nemotron 3 Super は3種類のレイヤーを組み合わせたハイブリッドアーキテクチャを採用しています。

3種類のレイヤー

レイヤー種別	役割	特徴
Mamba-2	長いシーケンス処理	線形コストでの高速処理
Transformer Attention	高精度な文脈把握	一部のレイヤーに配置
LatentMoE	専門家ルーティング	4倍多くの専門家を同一コストで参照

Mamba-2 レイヤーは、従来の Transformer が持つ二乗コストの注意機構を線形コストに置き換えます。長いシーケンス（数万〜数十万トークン）を扱うマルチエージェントシステムにおいて、特にメモリ効率が向上します。

LatentMoEはトークン埋め込みを低ランクの潜在空間に圧縮してから専門家にルーティングする手法です。通常の MoE と比べて同一計算コストで4倍多くの専門家を参照できます。

Multi-Token Prediction（MTP）

加えて Multi-Token Prediction（MTP） を採用しており、複数トークンを同時に予測することで、構造化生成タスクにおいて最大3倍の処理時間短縮を実現しています。JSON やコードなど、形式が固定されたアウトプットを扱うエージェントのツール呼び出し実装で効果が高い技術です。

パラメータ・スペック

項目	値
総パラメータ数	120.6B
アクティブパラメータ数	12.7B（埋め込み除く 12.1B）
コンテキスト長	1,000,000 トークン
ライセンス	NVIDIA Nemotron Open Model License
モデル ID	`nemotron-3-super-120b-a12b`

ベンチマーク性能

NVIDIA 公式の技術レポートによると、以下のスループット比較結果が報告されています。

比較対象	スループット改善率
前世代 Nemotron Super	最大 5倍
GPT-OSS-120B	2.2倍
Qwen3.5-122B	7.5倍

また、エージェント推論ベンチマーク PinchBench ではオープンモデル最高スコアの 85.6% を達成しています。

利用できるプラットフォーム

現時点で以下のプラットフォームから利用可能です。

プラットフォーム	状況
NVIDIA NIM API（build.nvidia.com）	✅ 利用可能
Hugging Face	✅ 利用可能（FP8量子化版）
Google Cloud Vertex AI	✅ 利用可能
Oracle Cloud Infrastructure	✅ 利用可能
OpenRouter / Together AI	✅ 利用可能
AWS Bedrock	🔜 近日対応予定
Microsoft Azure	🔜 近日対応予定
ローカル実行（vLLM）	H100-80GB × 2枚以上が必要

ローカル実行には高スペックな GPU が必要ですが、NVIDIA NIM API（build.nvidia.com）では無料のトライアルクレジットが提供されており、すぐに評価を始めることができます。

NVIDIA NIM API での実装

セットアップ

NVIDIA NIM API は OpenAI 互換のインターフェースを採用しています。openai ライブラリから接続先を切り替えるだけで利用できます。

pip install openai

build.nvidia.com で API キーを取得し、環境変数に設定します。

export NVIDIA_API_KEY="your-api-key-here"

シンプルな呼び出し

from openai import OpenAI

client = OpenAI(
    base_url="https://integrate.api.nvidia.com/v1",
    api_key="your-nvidia-api-key"
)

response = client.chat.completions.create(
    model="nvidia/nemotron-3-super-120b-a12b",
    messages=[
        {
            "role": "user",
            "content": "Pythonで二分探索を実装してください。"
        }
    ],
    temperature=0.6,
    max_tokens=1024
)

print(response.choices[0].message.content)

推論モードの切り替え（enable_thinking）

Nemotron 3 Super は enable_thinking パラメータで推論モードを切り替えられます。

# 推論モード ON（複雑な問題に適用）
response = client.chat.completions.create(
    model="nvidia/nemotron-3-super-120b-a12b",
    messages=[
        {
            "role": "user",
            "content": "次のアルゴリズム問題を解いてください: ..."
        }
    ],
    extra_body={"enable_thinking": True},
    temperature=0.6,
    max_tokens=4096
)

# 推論モード OFF（速度優先・コスト削減）
response = client.chat.completions.create(
    model="nvidia/nemotron-3-super-120b-a12b",
    messages=[
        {
            "role": "user",
            "content": "以下のテキストを日本語に翻訳してください: ..."
        }
    ],
    extra_body={"enable_thinking": False},
    temperature=0.2,
    max_tokens=512
)

enable_thinking: True の場合、モデルは回答前に内部で推論ステップを実行します。複雑な計画立案やコーディングタスクに適しています。一方 enable_thinking: False は翻訳・分類・抽出など定型タスクで速度優先の場合に有効です。

Budget-Controlled Reasoning

推論トークン数の上限を指定する Budget-Controlled Reasoning も提供されています。公式ドキュメントでは reasoning_budget パラメータとして記載されています。

response = client.chat.completions.create(
    model="nvidia/nemotron-3-super-120b-a12b",
    messages=[
        {
            "role": "user",
            "content": "このコードのバグを修正してください: ..."
        }
    ],
    extra_body={
        "enable_thinking": True,
        "reasoning_budget": 2048  # 推論トークン数の上限
    },
    max_tokens=4096
)

reasoning_budget を設定することで、推論の深さとコストのバランスを調整できます。出力トークン上限・デフォルト reasoning_budget など詳細な仕様は NIM モデルカードで最新情報を確認してください。

エージェントへの組み込みパターン

ツール呼び出しエージェント

21 種類のマルチ環境 RL ポストトレーニングにより、ツール呼び出し精度が強化されています。以下は OpenAI 互換のツール呼び出し実装例です。

import json
from openai import OpenAI

client = OpenAI(
    base_url="https://integrate.api.nvidia.com/v1",
    api_key="your-nvidia-api-key"
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "search_database",
            "description": "データベースから情報を検索します",
            "parameters": {
                "type": "object",
                "properties": {
                    "query": {
                        "type": "string",
                        "description": "検索クエリ"
                    },
                    "limit": {
                        "type": "integer",
                        "description": "返す結果の最大件数",
                        "default": 10
                    }
                },
                "required": ["query"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="nvidia/nemotron-3-super-120b-a12b",
    messages=[
        {
            "role": "user",
            "content": "2026年のAIトレンドに関する最新情報を調べてください"
        }
    ],
    tools=tools,
    tool_choice="auto",
    extra_body={"enable_thinking": True}
)

# ツール呼び出しの処理
message = response.choices[0].message
if message.tool_calls:
    for tool_call in message.tool_calls:
        func_name = tool_call.function.name
        args = json.loads(tool_call.function.arguments)
        print(f"Tool: {func_name}, Args: {args}")

長文脈エージェントの実装

1M トークンコンテキストを活用することで、大規模なコードベースやドキュメントを丸ごとコンテキストに含めた分析が可能になります。

def analyze_large_document(document_text: str, question: str) -> str:
    """
    大規模ドキュメントを単一のコンテキストとして分析するエージェント
    """
    response = client.chat.completions.create(
        model="nvidia/nemotron-3-super-120b-a12b",
        messages=[
            {
                "role": "system",
                "content": (
                    "あなたはドキュメント分析の専門家です。"
                    "提供されたドキュメントに基づいて正確に回答してください。"
                )
            },
            {
                "role": "user",
                "content": f"以下のドキュメントを分析して質問に答えてください。\n\n"
                           f"ドキュメント:\n{document_text}\n\n"
                           f"質問: {question}"
            }
        ],
        extra_body={"enable_thinking": True},
        temperature=0.3,
        max_tokens=2048
    )
    return response.choices[0].message.content

注意点

公式ドキュメントに記載されている主な注意事項です。

ローカル実行の要件: vLLM でのセルフホストには H100-80GB × 2枚以上の GPU が必要です。コスト面から、まずは NVIDIA NIM API での評価が推奨されます。

推論トークンの上限: enable_thinking: True の場合、現在の API では推論トークンの最大数が 32,768 トークンに制限されています。これはコンテキスト長の 1M トークンとは別の制限です。

Hugging Face の FP8 版: HuggingFace で公開されている NVIDIA-Nemotron-3-Super-120B-A12B-FP8 は FP8 量子化済みのモデルです。オリジナルと比較してわずかに精度が異なる場合があります。

AWS Bedrock: 2026年3月時点では対応予定とアナウンスされていますが、未対応です。AWS Bedrock での利用を前提としたシステム設計には注意が必要です。

まとめ

NVIDIA Nemotron 3 Super は、オープンウェイトモデルの中でエージェント推論に特化した設計が際立つモデルです。

Hybrid Mamba-Transformer MoE により、長いシーケンスを低コストで処理
前世代比5倍のスループットで、高トラフィックなエージェントシステムにも対応
enable_thinking / Budget-Controlled Reasoning で推論深度とコストのバランスを調整可能
1M トークンコンテキストで大規模コードベース・ドキュメントを一括処理

NVIDIA NIM API 経由ですぐに評価を始められます。マルチエージェントシステムの基盤モデルとして検討する価値のある選択肢です。

参考リンク

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up