0

NeurIPS2025の量子化論文

Last updated at 2026-01-01Posted at 2025-12-31

概要

この記事では、NeurIPS2025の量子化論文を紹介します。

AccuQuant: Simulating Multiple Denoising Steps for Quantizing Diffusion Models

概要：拡散モデルにおけるノイズ除去ステップの量子化誤差を削減するPTQ
キモ：各ステップの誤差を最小化するのではなく、複数(M)ステップの累積誤差を最小化する目的関数を使う。メモリ量がO(M)にならないよう、(16)式で近似を入れてメモリ量をO(1)にして削減している

Quantization Error Propagation: Revisiting Layer-Wise Post-Training Quantization

概要：レイヤ単位PTQで、レイヤを跨ぐ量子化誤差の累積を防ぐフレームワーク
キモ：(4)式で、事前にキャリブレーションデータで求めた前レイヤからの蓄積誤差$\delta_l$を使って、重みを補正する
実験：特に低ビット量子化で性能向上している

Efficient Multi-bit Quantization Network Training via Weight Bias Correction and Bit-wise Coreset Sampling

概要：マルチビット量子化の学習時間改善
キモ：Figure 2のように、Batch Normalizationを全ビット数に対して共通に持つ。ビット数間の差分は、(2)式でbias correctionして分布を合わせる。またそのビット数にとって重要度(3)の高いサンプルで学習する

DartQuant: Efficient Rotational Distribution Calibration for LLM Quantization

概要：回転行列による重み行列の平滑化の高速化
キモ：従来の手法が活性化の外れ値そのものを制約するのに対して、本手法ではWhip損失関数を定義し、Activation分布を一様分布に近づけるよう最適化することで重み行列平滑化する。回転行列の探索は、ある隠れ行列Z(Zは最適化対象)をQR分解し直交行列を生成することによって回転行列を最適化する
実験：3090GPUで70Bパラメータの回転キャリブレーションを初めて成功

LittleBit: Ultra Low-Bit Quantization via Latent Factorization

概要：LLMの重み低ビット(0.1ビット以下)量子化
キモ：重みを低ランク分解して、Figure 2のようにLinear演算する
実験：Llama2-13Bを0.9GBに圧縮

PolarQuant: Leveraging Polar Transformation for Key Cache Quantization and Decoding Acceleration

概要：Keyキャッシュ量子化における外れ値課題の解決
キモ：Figure 1のようにKeyキャッシュの値を極座標変換して領域毎に割り当てビットを変える。デコード時は極座標の量子化値から直交座標の値への対応をLUTを使って高速化する

HBLLM: Wavelet-Enhanced High-Fidelity 1-Bit Quantization for LLMs

概要：LLM向けの1ビットPTQ方法
キモ：Haarウェーブレット変換によって周波数毎に量子化することで表現力を上げる

NSNQuant: A Double Normalization Approach for Calibration-Free Low-Bit Vector Quantization of KV Cache

概要：KVキャッシュの量子化において、キャリブレーション不要な方法
キモ：Figure 2のように、NSN正規化を入れて(これを入れてもAttentionの結果に影響を与えない)、KVキャッシュに入れる値の分布を整える

VETA-DiT: Variance-Equalized and Temporally Adaptive Quantization for Efficient 4-bit Diffusion Transformers

概要：DiTのW4A4量子化
キモ：従来のHadamard行列による回転変換よりも分散を小さくするためKarhuen-Lowve変換を導入した変換を提案

Point4Bit: Post Training 4-bit Quantization for Point Cloud 3D Detection

概要：3D検知向け4ビットPTQ
キモ：(1)本タスクで重要な部分ほど精細に量子化する (2)重み感度を見て重要なチャンネルを重視して量子化する

$S^2$Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

概要：動画向け拡散モデルのPTQ
キモ：(1)ヘッシアンを使って高品質なキャリブレーションデータを選択する (2)重要なトークンを重視して最適化するようにする((10)式)

ParetoQ: Improving Scaling Laws in Extremely Low-bit LLM Quantization

概要：量子化モデルサイズ1,1.58,2,3,4ビット間で厳密な比較ができるようにするフレームワーク

Efficient and Generalizable Mixed-Precision Quantization via Topological Entropy

概要：混合精度量子化で効率的かつ汎化できる方法
キモ：トポロジカルエントロピーを使うと量子化感度を効果的に測定でき、モデル精度とビット幅に強い相関があることを使う

QSCA: Quantization with Self-Compensating Auxiliary for Monocular Depth Estimation

概要：単眼深度推定への4ビット量子化適用
キモ：量子化で壊れた情報を復元するためのSCAモジュールを追加する

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0