概要
この記事では、NeurIPS2025の量子化論文を紹介します。
AccuQuant: Simulating Multiple Denoising Steps for Quantizing Diffusion Models
- 概要:拡散モデルにおけるノイズ除去ステップの量子化誤差を削減するPTQ
- キモ:各ステップの誤差を最小化するのではなく、複数(M)ステップの累積誤差を最小化する目的関数を使う。メモリ量がO(M)にならないよう、(16)式で近似を入れてメモリ量をO(1)にして削減している
Quantization Error Propagation: Revisiting Layer-Wise Post-Training Quantization
- 概要:レイヤ単位PTQで、レイヤを跨ぐ量子化誤差の累積を防ぐフレームワーク
- キモ:(4)式で、事前にキャリブレーションデータで求めた前レイヤからの蓄積誤差$\delta_l$を使って、重みを補正する
- 実験:特に低ビット量子化で性能向上している
Efficient Multi-bit Quantization Network Training via Weight Bias Correction and Bit-wise Coreset Sampling
- 概要:マルチビット量子化の学習時間改善
- キモ:Figure 2のように、Batch Normalizationを全ビット数に対して共通に持つ。ビット数間の差分は、(2)式でbias correctionして分布を合わせる。またそのビット数にとって重要度(3)の高いサンプルで学習する
DartQuant: Efficient Rotational Distribution Calibration for LLM Quantization
- 概要:回転行列による重み行列の平滑化の高速化
- キモ:従来の手法が活性化の外れ値そのものを制約するのに対して、本手法ではWhip損失関数を定義し、Activation分布を一様分布に近づけるよう最適化することで重み行列平滑化する。回転行列の探索は、ある隠れ行列Z(Zは最適化対象)をQR分解し直交行列を生成することによって回転行列を最適化する
- 実験:3090GPUで70Bパラメータの回転キャリブレーションを初めて成功
LittleBit: Ultra Low-Bit Quantization via Latent Factorization
- 概要:LLMの重み低ビット(0.1ビット以下)量子化
- キモ:重みを低ランク分解して、Figure 2のようにLinear演算する
- 実験:Llama2-13Bを0.9GBに圧縮
PolarQuant: Leveraging Polar Transformation for Key Cache Quantization and Decoding Acceleration
- 概要:Keyキャッシュ量子化における外れ値課題の解決
- キモ:Figure 1のようにKeyキャッシュの値を極座標変換して領域毎に割り当てビットを変える。デコード時は極座標の量子化値から直交座標の値への対応をLUTを使って高速化する
HBLLM: Wavelet-Enhanced High-Fidelity 1-Bit Quantization for LLMs
- 概要:LLM向けの1ビットPTQ方法
- キモ:Haarウェーブレット変換によって周波数毎に量子化することで表現力を上げる
NSNQuant: A Double Normalization Approach for Calibration-Free Low-Bit Vector Quantization of KV Cache
- 概要:KVキャッシュの量子化において、キャリブレーション不要な方法
- キモ:Figure 2のように、NSN正規化を入れて(これを入れてもAttentionの結果に影響を与えない)、KVキャッシュに入れる値の分布を整える
VETA-DiT: Variance-Equalized and Temporally Adaptive Quantization for Efficient 4-bit Diffusion Transformers
- 概要:DiTのW4A4量子化
- キモ:従来のHadamard行列による回転変換よりも分散を小さくするためKarhuen-Lowve変換を導入した変換を提案
Point4Bit: Post Training 4-bit Quantization for Point Cloud 3D Detection
- 概要:3D検知向け4ビットPTQ
- キモ:(1)本タスクで重要な部分ほど精細に量子化する (2)重み感度を見て重要なチャンネルを重視して量子化する
$S^2$Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation
- 概要:動画向け拡散モデルのPTQ
- キモ:(1)ヘッシアンを使って高品質なキャリブレーションデータを選択する (2)重要なトークンを重視して最適化するようにする((10)式)
ParetoQ: Improving Scaling Laws in Extremely Low-bit LLM Quantization
- 概要:量子化モデルサイズ1,1.58,2,3,4ビット間で厳密な比較ができるようにするフレームワーク
Efficient and Generalizable Mixed-Precision Quantization via Topological Entropy
- 概要:混合精度量子化で効率的かつ汎化できる方法
- キモ:トポロジカルエントロピーを使うと量子化感度を効果的に測定でき、モデル精度とビット幅に強い相関があることを使う
QSCA: Quantization with Self-Compensating Auxiliary for Monocular Depth Estimation
- 概要:単眼深度推定への4ビット量子化適用
- キモ:量子化で壊れた情報を復元するためのSCAモジュールを追加する