概要
この記事では、NeurIPS2023の量子化論文を紹介します。1
QLoRA: Efficient Finetuning of Quantized LLMs
- 概要:4bit量子化モデルからのLoRA
- 新規性:4bitでもFine-tunign(LoRA)できることを初めて示した。
- キモ:(1) 4bit-Normal Float. 4bitのintやfloatより良い。(2) Double Quantization. 量子化係数を量子化する。 (3) Paged optimizers. NVIDIAの共有メモリでページングを高速化。
Memory Efficient Optimizers with 4-bit States
- 概要:オプティマイザの状態(Adamのモーメント)のビット数を減らして学習時のメモリ削減。
- 研究機関:Bosch
- 新規性:従来の8bitから今回は4bitに削減。
- キモ:(1) モーメント部分の外れ値が複雑なカラムがあるのでブロックサイズを小さくして量子化する。(2) 2次モーメントは0を除いて量子化することで、Adam計算中に現れる$1/(\sqrt{V}+\varepsilon)$の値が大きくならないようにする。
QuIP: 2-Bit Quantization of Large Language Models With Guarantees
- 概要:LLM向け2bit PTQ
- 新規性:Hessianの方向を使って丸めを正確にする方法。
Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing
- 概要:Transformerの量子化における外れ値対策
- 研究機関:Qualcomm
- 新規性:外れ値はAttentionが'no-op'(0を常に出力)を学習することが原因だと仮定し、clipped softmaxとgated attentionによる対策を提案した。
- キモ:まず言語モデルで[sep]が'no-op'に対応することを示し、ViTでも画素の外れ値は更新しなくなることを示した。Fig. 4の仮説を立てた。
Training Transformers with 4-bit Integers
- 概要:Transformerの4bit量子化
- 研究機関:Bosch
- 新規性:今のGPUで使えるINT4で学習。FP16の2.2倍高速。
- キモ:外れ値を3.3節のHadamard変換で小さくす。Back propagationはINT4を2つ使ってINT8で計算する。
-
画像や数式は論文から引用しています。 ↩