0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

NeurIPS2024の量子化論文 (2)

Posted at

概要

この記事では、NeurIPS2024の量子化論文を紹介します。1

その1

Cherry on Top: Parameter Heterogeneity and Quantization in Large Language Models

  • 概要:CherryQ. 一部のパラメータ(Cherry)が性能に大きな影響を持つことを用いた学習ベースの混合量子化
  • キモ:Cherryは(2)式のHessianで決める。Algorithm 1のようにcherryとcherry以外を同時に調整(学習)する

Efficient Multi-task LLM Quantization and Serving for Multiple LoRA Adapters

  • 概要:LoRAによるマルチタスクで複数のLoRAアダプタがある場合に共通部分の量子化を共通化
  • キモ:MLGPTQでは、(2)式のように、全タスクのうち最もHessianの寄与が大きいタスクでGPTQ処理する

2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution

  • 概要:超解像向け2bit量子化方法
  • キモ:Fig. 2. Clippingの協会をDOBIで粗く、DQCで詳細に決める

BitsFusion: 1.99 bits Weight Quantization of Diffusion Model

  • 概要:Stable Diffusion v1.5のU-Netを1.99bitに量子化
  • キモ:Fig. 3. 量子化前後の誤差から混合量子化して、量子化前からの蒸留でさらに最適化する

Q-VLM: Post-training Quantization for Large Vision-Language Models

  • 概要:VLMのPTQ
  • キモ:エントロピーを量子化誤差の代理尺度として使う。レイヤのエントロピーが閾値内に収まるようにブロックに分け、ブロック内で最適に量子化する

KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization

  • 概要:KVCacheの量子化
  • キモ:Fig. 1 右の4つの工夫で制度改善した。Per-channel量子化など

image.png

MagR: Weight Magnitude Reduction for Enhancing Post-Training Quantization

  • 概要:重みを非線形変換で調整して外れ値を抑制する方法
  • キモ:量子化誤差に加え、重み行列の∞ノルムが最小になるように最適化する

PTQ4DiT: Post-training Quantization for Diffusion Transformers

  • 概要:Diffusion Transformer向け量子化
  • キモ:CSBはレイヤ間で重みを対角行列で滑らかにする((4)~(7)式)。SSCは重みとの相関が少ない時系列ほど強く重み付ける((10)~(11)式)
  1. 画像や数式は論文から引用しています。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?