LLM・LLM活用 Advent Calendar 2025

LLMの精度を維持する量子化の核心

Posted at 2025-12-25

はじめに

大規模言語モデルを実用的なコストで動かすためには、データのビット数を削減する量子化技術が欠かせません。しかし、単純に数値を丸めるだけでは、モデルの知能とも言える推論精度が著しく低下してしまいます。

そこで重要になるのが、再学習を行わずに精度を維持したまま量子化を行う PTQ（Post-Training Quantization）アルゴリズムです。本記事では、現在のデプロイ現場で標準的に使われている3つの代表的な手法を解説します。

LLMの量子化において最も大きな課題は、 アクティベーション（モデル内部の計算データ）に出現する外れ値 です。

LLMの推論中のデータを観察すると、特定のチャンネルにだけ、他の値より数十倍も大きな値が出現することがあります。

この問題を解決するために、以下の3つの手法が登場しました。

SmoothQuant は、主に重みとアクティベーションの両方を8bitにする W8A8 量子化において、高い精度を維持するために開発された手法です。

アクティベーションには外れ値があり量子化が難しい一方で、重み（Weights）は比較的値が安定しており量子化しやすいという性質があります。SmoothQuantは、数学的な等価性を保ったまま、アクティベーションの量子化のしにくさを重み側に移します。

GPTQ は、重みを4bitなどの極めて低いビット数に落とす際に、最も広く使われている手法の一つです。

単純に値を丸めるのではなく、量子化によって生じる誤差を、他の重みを微調整することで補償するというアプローチを取ります。

二次の情報の利用：層ごとに量子化を行い、逆ヘッセ行列を用いた最適化によって、行列全体の再構成誤差が最小になるように重みを更新します。
W4A16の標準：重みを4bit（Weight 4bit）、計算時のみ16bit（Activation 16bit）に戻して計算する手法において、高い圧縮率と精度を両立します。
推論の高速化：メモリからの読み出し量が大幅に減るため、推論速度の向上に直結します。

AWQ（Activation-aware Weight Quantization）は、GPTQと並んで4bit量子化の主流となっている手法です。

すべての重みが等しく重要であるとは限りません。AWQは、アクティベーションの値が大きい箇所に対応する重みは、モデルの出力にとって重要であると定義します。

それぞれの技術は、目的やターゲットとするビット数によって使い分けられます。

手法	主なターゲット	解決アプローチ	メリット
SmoothQuant	W8A8	重みとアクティベーションのバランス調整	8bit推論の精度維持に最適
GPTQ	W4A16	二次情報を用いた誤差の最小化	4bit化において高い圧縮率を実現
AWQ	W4A16	重要度の高い重みのスケーリング保護	汎化性能が高く、実装が比較的シンプル

LLMを軽量化するPTQ技術は、単なる圧縮ではなく、モデルの数学的な性質を維持するための高度な最適化へと進化しています。

外れ値への対処が精度の鍵を握っており、SmoothQuantは8bit推論の安定化に、GPTQとAWQは4bit化による高速化と高精度の両立に大きく貢献しています。これらの手法を理解し、用途に合わせて適切なモデル形式を選択することが、効率的なAI運用において重要です。