1

NeurIPS2023の量子化論文 (1)

Last updated at 2024-04-30Posted at 2024-04-19

概要

この記事では、NeurIPS2023の量子化論文を紹介します。¹

QLoRA: Efficient Finetuning of Quantized LLMs

概要：4bit量子化モデルからのLoRA
新規性：4bitでもFine-tunign(LoRA)できることを初めて示した。
キモ：(1) 4bit-Normal Float. 4bitのintやfloatより良い。(2) Double Quantization. 量子化係数を量子化する。 (3) Paged optimizers. NVIDIAの共有メモリでページングを高速化。

Memory Efficient Optimizers with 4-bit States

概要：オプティマイザの状態(Adamのモーメント)のビット数を減らして学習時のメモリ削減。
研究機関：Bosch
新規性：従来の8bitから今回は4bitに削減。
キモ：(1) モーメント部分の外れ値が複雑なカラムがあるのでブロックサイズを小さくして量子化する。(2) 2次モーメントは0を除いて量子化することで、Adam計算中に現れる$1/(\sqrt{V}+\varepsilon)$の値が大きくならないようにする。

QuIP: 2-Bit Quantization of Large Language Models With Guarantees

概要：LLM向け2bit PTQ
新規性：Hessianの方向を使って丸めを正確にする方法。

Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

概要：Transformerの量子化における外れ値対策
研究機関：Qualcomm
新規性：外れ値はAttentionが'no-op'(0を常に出力)を学習することが原因だと仮定し、clipped softmaxとgated attentionによる対策を提案した。
キモ：まず言語モデルで[sep]が'no-op'に対応することを示し、ViTでも画素の外れ値は更新しなくなることを示した。Fig. 4の仮説を立てた。

Training Transformers with 4-bit Integers

概要：Transformerの4bit量子化
研究機関：Bosch
新規性：今のGPUで使えるINT4で学習。FP16の2.2倍高速。
キモ：外れ値を3.3節のHadamard変換で小さくす。Back propagationはINT4を2つ使ってINT8で計算する。

画像や数式は論文から引用しています。 ↩

1

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

1