Qiita全国学生対抗戦 Advent Calendar 2025

LLM推論のボトルネックと次世代データ型「NVFP4」

Posted at 2025-12-25

はじめに

DeepSeek-V3やLlama 3といった巨大な大規模言語モデルが登場し、その驚異的な性能が注目を集めています。しかし、こうしたモデルを実用的な速度で動作させるためには、ハードウェアの進化だけでなく、データを軽量化する 量子化 と呼ばれる技術が不可欠です。

本記事では、LLMの推論コストの正体を整理し、NVIDIAのBlackwell世代で標準となった最新の4bit浮動小数点フォーマットである NVFP4 の仕組みと重要性について解説します。

LLMの動作が重いと感じられる理由は、単に計算量が多いからだけではありません。実は、多くの場面で データの移動待ち が発生していることが根本的な原因です。

LLMの推論プロセスは、以下の2つのフェーズに分かれます。

Prefill：プロンプト処理
入力されたプロンプト全体を一気に計算するフェーズです。計算密度が高いため、GPUの演算性能がボトルネックになりやすい Compute-bound な状態となります。
Decode：トークン生成
1トークンずつ順番に出力するフェーズです。1トークン生成するたびに、数百GBに及ぶモデルの全重みをメモリから計算ユニットへ読み出す必要があります。計算量に対してデータ転送量が圧倒的に多いため、メモリ帯域幅がボトルネックになる Memory-bound な状態に陥ります。

現在のLLM利用において、出力の待ち時間を減らすことはユーザー体験に直結します。そのため、Memory-boundな領域で 転送するデータ量を減らすこと が最重要課題となっています。

モデルを動かすために必要なVRAM容量は、主に モデルの重み と KV Cache の2つによって決まります。

例えば、70B（700億パラメータ）のモデルを動かす場合、精度（ビット数）によって必要な容量は以下のように劇的に変わります。

16bitではH100（80GB）1枚に収まりませんが、4bitに量子化することで、GPU1枚の環境でも大規模なモデルを動作させることが可能になります。

長い文章を扱う際には、過去の計算結果を保持する KV Cache の消費も無視できません。文脈が長くなるほどメモリ消費が指数関数的に増えるため、重みだけでなくKV Cache自体を4bit化して節約する技術の導入が進んでいます。

これまでの量子化では、INT8やINT4といった整数型が主流でした。しかし、整数型は表現できる範囲が狭く、モデルの精度が低下しやすいという課題がありました。

そこで、NVIDIAのBlackwellアーキテクチャでネイティブサポートされたのが、4bit浮動小数点形式である NVFP4 です。

NVFP4が高い精度を維持できる理由は、 Microscaling という技術にあります。

従来の量子化
行列全体に対して1つのスケーリング係数を適用していました。これでは、一部の極端に大きな値である 外れ値 に引きずられ、全体の精度が落ちてしまうことがありました。
Microscaling（NVFP4など）
例えば16個の要素を1つのブロックとしてまとめ、その小さなブロックごとに最適なスケール係数を持たせます。これにより、外れ値の影響を局所化し、極限までデータを圧縮しながら高い精度を維持することが可能になりました。

現在、4bit浮動小数点のフォーマットには大きく2つの陣営が存在します。

NVFP4：NVIDIA FP4
NVIDIA Blackwell世代で採用されている独自フォーマットです。ハードウェアレベルでこの演算を高速化する専用のTensor Coreを搭載しており、圧倒的なスループットを実現しています。
MXFP4：Microscaling Formats
Open Compute Projectによって標準化された規格です。NVIDIAだけでなくAMD、Intel、ARMなどのベンダーも推進しており、業界全体でフォーマットを共通化し、互換性を高める狙いがあります。

どちらのフォーマットも、指数部と仮数部の配分を最適化することで、4bitという低ビットながら16bitに近い精度を維持できるよう設計されています。

これらを支える技術の核が、NVFP4に代表される最新の量子化技術です。ハードウェアとソフトウェアが協調して進化を続けることで、2025年はLLMがより身近で高速なインフラとなっていくでしょう。