1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

NeurIPS2024の量子化論文 (1)

Posted at

概要

この記事では、NeurIPS2024の量子化論文を紹介します。1

DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs

別の記事参照

QTIP: Quantization with Trellises and Incoherence Processing

  • 概要:Bitshift+数値加算の遷移に縛ったTrellise QuantizerでLLMをベクトル量子化する方法
  • キモ:重みを図2のように量子化する

image.png
状態の遷移は、左シフト+0または1加算 となっています。各「01」などにV次元ベクトルが割当たっています。上のシーケンス$S$を下のシーケンス$\hat{S}$へ量子化しています。

メモリ量を削減するために、Codebookは持つのではなく、計算で求めることを提案しています。Codebookの計算の仕方として、論文ではIMADと3INSTの2つを提案しています。実用上はルックアップテーブルと計算のハイブリッドのCodebookが使われるそうです。

LLMを量子化する際は、Linear層の重みを$T_x\times T_y$ブロックに分割したものをシーケンスと思って量子化を適用します。

Exploiting LLM Quantization

  • 概要:量子化した後に異常動作が発生するように、LLMを攻撃する方法

image.png

ZipCache: Accurate and Efficient KV Cache Quantization with Salient Token Identification

  • 概要:KV Cacheの量子化で精度劣化を防ぐ方法
  • キモ:
    1. Fig. 2(d)のようにチャネル毎にも量子化パラメータを決める
    2. 重要なトークンを求めるために(8)式の指標を使う。効率的に計算するためにトークンをサンプリングして計算する

QBB: Quantization with Binary Bases for LLMs

  • 概要:LLMの量子化で、重みを1ビットの行列の一次結合で近似することで量子化する方法
  • キモ:基底の1ビット行列と係数$\alpha$はFig. 1の初期値とFig. 2の反復で最適化する
  1. 画像や数式は論文から引用しています。

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?