概要
この記事では、NeurIPS2022の量子化論文を紹介します。1
Leveraging Inter-Layer Dependency for Post -Training Quantization
- 概要:学習ベースPTQの改良
- 新規性:Network-wiseなPTQで、過学習と離散最適化の課題を解決する。
- キモ:(1) Activationの正則化を入れる。(2) Activationのロスをアニーリングで連続緩和する。
- 評価:4bit以下、ImageNetで実験した。
Outlier Suppression: Pushing the Limit of Low-bit Transformer Language Models
- 概要:Transformerの量子化
- 研究機関:SenseTime
- 新規性:量子化時のOutlierの課題に対して、LayerNormがOutlierを増幅することを見つけた。
- キモ:LNで$\gamma$倍するのをやめる。
- 評価:GLUEで評価した。
XTC: Extreme Compression for Pre-trained Transformers Made Simple and Efficient
- 概要:XTC. NLP向け低ビット量子化
- 研究機関:Microsoft
- 新規性:効率的に量子化するパイプラインを提案
- キモ:従来の方法だとバイナリ量子化では事前学習が学習不十分。レイヤを減らしたりビット量子化したりすると大きく軽量化できることを示した。
- 評価:GLUEで評価した。
Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer
- 概要:Q-ViT
- 新規性:ViTのフル量子化
- キモ:ViTのQATの精度劣化は、Attentionの情報劣化による。
Information Reactive Module (IRM) とDistibution Guided Distillation (DGD) で学習。
IRMはAttentionのエントロピー最大になるように決める。DGDは、レイヤ、ヘッド毎に蒸留する。
- 評価:DeiTやSwin Transformerで実験した。
-
画像や数式は論文から引用しています。 ↩