概要
この記事では、NeurIPS2024の量子化論文を紹介します。1
DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs
別の記事参照
QTIP: Quantization with Trellises and Incoherence Processing
- 概要:Bitshift+数値加算の遷移に縛ったTrellise QuantizerでLLMをベクトル量子化する方法
- キモ:重みを図2のように量子化する
状態の遷移は、左シフト+0または1加算 となっています。各「01」などにV次元ベクトルが割当たっています。上のシーケンス$S$を下のシーケンス$\hat{S}$へ量子化しています。
メモリ量を削減するために、Codebookは持つのではなく、計算で求めることを提案しています。Codebookの計算の仕方として、論文ではIMADと3INSTの2つを提案しています。実用上はルックアップテーブルと計算のハイブリッドのCodebookが使われるそうです。
LLMを量子化する際は、Linear層の重みを$T_x\times T_y$ブロックに分割したものをシーケンスと思って量子化を適用します。
Exploiting LLM Quantization
- 概要:量子化した後に異常動作が発生するように、LLMを攻撃する方法
ZipCache: Accurate and Efficient KV Cache Quantization with Salient Token Identification
- 概要:KV Cacheの量子化で精度劣化を防ぐ方法
- キモ:
- Fig. 2(d)のようにチャネル毎にも量子化パラメータを決める
- 重要なトークンを求めるために(8)式の指標を使う。効率的に計算するためにトークンをサンプリングして計算する
QBB: Quantization with Binary Bases for LLMs
- 概要:LLMの量子化で、重みを1ビットの行列の一次結合で近似することで量子化する方法
- キモ:基底の1ビット行列と係数$\alpha$はFig. 1の初期値とFig. 2の反復で最適化する
-
画像や数式は論文から引用しています。 ↩