概要
この記事では、NeurIPS2024の量子化論文を紹介します。1
Cherry on Top: Parameter Heterogeneity and Quantization in Large Language Models
- 概要:CherryQ. 一部のパラメータ(Cherry)が性能に大きな影響を持つことを用いた学習ベースの混合量子化
- キモ:Cherryは(2)式のHessianで決める。Algorithm 1のようにcherryとcherry以外を同時に調整(学習)する
Efficient Multi-task LLM Quantization and Serving for Multiple LoRA Adapters
- 概要:LoRAによるマルチタスクで複数のLoRAアダプタがある場合に共通部分の量子化を共通化
- キモ:MLGPTQでは、(2)式のように、全タスクのうち最もHessianの寄与が大きいタスクでGPTQ処理する
2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution
- 概要:超解像向け2bit量子化方法
- キモ:Fig. 2. Clippingの協会をDOBIで粗く、DQCで詳細に決める
BitsFusion: 1.99 bits Weight Quantization of Diffusion Model
- 概要:Stable Diffusion v1.5のU-Netを1.99bitに量子化
- キモ:Fig. 3. 量子化前後の誤差から混合量子化して、量子化前からの蒸留でさらに最適化する
Q-VLM: Post-training Quantization for Large Vision-Language Models
- 概要:VLMのPTQ
- キモ:エントロピーを量子化誤差の代理尺度として使う。レイヤのエントロピーが閾値内に収まるようにブロックに分け、ブロック内で最適に量子化する
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization
- 概要:KVCacheの量子化
- キモ:Fig. 1 右の4つの工夫で制度改善した。Per-channel量子化など
MagR: Weight Magnitude Reduction for Enhancing Post-Training Quantization
- 概要:重みを非線形変換で調整して外れ値を抑制する方法
- キモ:量子化誤差に加え、重み行列の∞ノルムが最小になるように最適化する
PTQ4DiT: Post-training Quantization for Diffusion Transformers
- 概要:Diffusion Transformer向け量子化
- キモ:CSBはレイヤ間で重みを対角行列で滑らかにする((4)~(7)式)。SSCは重みとの相関が少ない時系列ほど強く重み付ける((10)~(11)式)
-
画像や数式は論文から引用しています。 ↩