0

NeurIPS2024の量子化論文 (1)

Posted at 2025-04-05

概要

この記事では、NeurIPS2024の量子化論文を紹介します。¹

DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs

別の記事参照

QTIP: Quantization with Trellises and Incoherence Processing

概要：Bitshift+数値加算の遷移に縛ったTrellise QuantizerでLLMをベクトル量子化する方法
キモ：重みを図2のように量子化する

状態の遷移は、左シフト＋0または1加算となっています。各「01」などにV次元ベクトルが割当たっています。上のシーケンス$S$を下のシーケンス$\hat{S}$へ量子化しています。

メモリ量を削減するために、Codebookは持つのではなく、計算で求めることを提案しています。Codebookの計算の仕方として、論文ではIMADと3INSTの2つを提案しています。実用上はルックアップテーブルと計算のハイブリッドのCodebookが使われるそうです。

LLMを量子化する際は、Linear層の重みを$T_x\times T_y$ブロックに分割したものをシーケンスと思って量子化を適用します。

Exploiting LLM Quantization

概要：量子化した後に異常動作が発生するように、LLMを攻撃する方法

ZipCache: Accurate and Efficient KV Cache Quantization with Salient Token Identification

概要：KV Cacheの量子化で精度劣化を防ぐ方法
キモ：
1. Fig. 2(d)のようにチャネル毎にも量子化パラメータを決める
2. 重要なトークンを求めるために(8)式の指標を使う。効率的に計算するためにトークンをサンプリングして計算する

QBB: Quantization with Binary Bases for LLMs

概要：LLMの量子化で、重みを1ビットの行列の一次結合で近似することで量子化する方法
キモ：基底の1ビット行列と係数$\alpha$はFig. 1の初期値とFig. 2の反復で最適化する

画像や数式は論文から引用しています。 ↩

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0