中華NPUボード Advent Calendar 2025

NPUでのモデル変換に必要な量子化とは？

Last updated at 2025-12-02Posted at 2025-12-02

NPUでのモデル変換に必要な量子化とは？

はじめに

近年、スマートフォンやエッジデバイスにAI処理専用のNPU（Neural Processing Unit）が搭載されるようになりました。NPUで深層学習モデルを効率的に動作させるためには「量子化」という技術が不可欠です。本記事では、量子化の基礎から実践的な手法まで解説します。

量子化とは

量子化（Quantization）とは、深層学習モデルの重みや活性化値を、高精度な浮動小数点形式（FP32など）からより低精度な形式（INT8、INT4など）に変換するプロセスです。

なぜ量子化が必要なのか

NPUは整数演算に最適化されたハードウェアです。FP32のままではNPUの性能を十分に引き出せないため、以下の理由から量子化が求められます。

メモリ効率の向上: INT8はFP32の1/4のサイズとなり、メモリ使用量を大幅に削減
計算速度の向上: NPUのSIMD演算を活用し、1命令で4倍のデータを処理可能
消費電力の削減: 低精度演算により電力消費を抑制
NPUとの親和性: 多くのNPUはINT8やINT4のネイティブサポートを持つ

量子化の基本原理

量子化では、連続的な浮動小数点値を離散的な整数値にマッピングします。

量子化値 = round((浮動小数点値 - ゼロポイント) / スケール)

スケールとゼロポイントは、元のデータ分布を適切に表現できるよう決定されます。

量子化の種類

何を量子化するか

対象	説明
重み（Weights）のみ	モデルの学習済みパラメータを量子化。比較的精度を維持しやすい
重み＋活性化（Activations）	両方を量子化。より高い圧縮率と高速化が可能だが精度への影響大

いつ量子化するか

量子化のタイミングにより、大きく2つの手法に分類されます。

PTQ（Post-Training Quantization）：学習後量子化

PTQは、学習済みモデルに対して後から量子化を適用する手法です。

特徴

学習済みモデルをそのまま変換できる
追加の学習が不要で手軽に適用可能
キャリブレーションデータ（100サンプル程度）で量子化パラメータを決定
QATと比較すると精度低下が大きい場合がある

PTQの種類

動的量子化（Dynamic Quantization）

重みは事前に量子化し、活性化は推論時に動的に量子化
NLPモデルなど入力長が可変のモデルに適している
実装が容易

静的量子化（Static Quantization）

重みと活性化の両方を事前に量子化
キャリブレーションデータセットで活性化の分布を学習
CNNなど活性化分布が安定したモデルに適している
動的量子化より高い精度を維持しやすい

PTQの適用例

# PyTorchでの静的量子化の概要
import torch.quantization as quant

# 1. QConfigの設定
model.qconfig = quant.get_default_qconfig('qnnpack')

# 2. モデルの準備（オブザーバー挿入）
quant.prepare(model, inplace=True)

# 3. キャリブレーション
for data in calibration_dataset:
    model(data)

# 4. 量子化の実行
quant.convert(model, inplace=True)

QAT（Quantization-Aware Training）：量子化を意識した学習

QATは、学習プロセス中に量子化の影響をシミュレートする手法です。

特徴

学習中に量子化による誤差を考慮
PTQより高い精度を維持可能
追加の学習（ファインチューニング）が必要
実装の複雑性が増す

仕組み

QATでは「Fake Quantization」と呼ばれる手法を使用します。順伝播では量子化をシミュレートし、逆伝播では**STE（Straight Through Estimator）**により勾配を近似して学習を継続します。

順伝播: 浮動小数点値 → 量子化 → 逆量子化 → 次のレイヤー
逆伝播: 量子化関数の勾配を1として近似（STE）

精度比較

一般的な精度の傾向：

QAT > 静的PTQ > 動的PTQ

ただし、モデル構造やタスクにより最適な手法は異なります。

NPU向け量子化の実践

代表的なビット幅

ビット幅	用途	特徴
INT8	CNNモデル、標準的な用途	精度と効率のバランスが良い
INT4	LLM、メモリ制約のある環境	高圧縮だが精度低下に注意
INT16	Transformerモデル	FP32に近い動的範囲を維持

モデル別の推奨設定

CNNモデル: INT8またはINT16
Transformerモデル: INT16
LLM: INT4またはINT8

量子化時の注意点

精度低下を抑えるテクニック

キャリブレーションデータの品質: 実際の推論データの分布を反映したデータを使用
混合精度量子化: 感度の高いレイヤーは高精度を維持
外れ値の処理: 活性化の外れ値がある場合はSmoothQuantなどの手法を適用
最初と最後のレイヤー: 精度への影響が大きいため8bit以上を推奨

LLM特有の課題

大規模言語モデルでは、活性化に外れ値が発生しやすく量子化が困難です。対策として以下の手法が研究されています。

SmoothQuant: 活性化のスケールを重みに移行して量子化を容易化
AWQ（Activation-aware Weight Quantization）: 重要な重みを保護
GPTQ: 最適な丸め方向を学習

まとめ

NPUでモデルを効率的に動作させるには、量子化が必須の技術です。

手法	メリット	デメリット	推奨シーン
PTQ	手軽、学習不要	精度低下の可能性	素早くデプロイしたい場合
QAT	高精度維持	学習コストが高い	精度が重要なアプリケーション

まずはPTQで試し、精度が不十分な場合にQATを検討するアプローチが効率的です。NPUの特性とモデルの要件に合わせて、適切な量子化戦略を選択しましょう。

参考リンク

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up