2

More than 1 year has passed since last update.

NeurIPS2022の量子化論文 (1)

Last updated at 2023-05-02Posted at 2023-02-23

概要

この記事では、NeurIPS2022の量子化論文を紹介します。¹

Leveraging Inter-Layer Dependency for Post -Training Quantization

概要：学習ベースPTQの改良
新規性：Network-wiseなPTQで、過学習と離散最適化の課題を解決する。
キモ：(1) Activationの正則化を入れる。(2) Activationのロスをアニーリングで連続緩和する。
評価：4bit以下、ImageNetで実験した。

Outlier Suppression: Pushing the Limit of Low-bit Transformer Language Models

概要：Transformerの量子化
研究機関：SenseTime
新規性：量子化時のOutlierの課題に対して、LayerNormがOutlierを増幅することを見つけた。
キモ：LNで$\gamma$倍するのをやめる。
評価：GLUEで評価した。

XTC: Extreme Compression for Pre-trained Transformers Made Simple and Efficient

概要：XTC. NLP向け低ビット量子化
研究機関：Microsoft
新規性：効率的に量子化するパイプラインを提案
キモ：従来の方法だとバイナリ量子化では事前学習が学習不十分。レイヤを減らしたりビット量子化したりすると大きく軽量化できることを示した。
評価：GLUEで評価した。

Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer

概要：Q-ViT
新規性：ViTのフル量子化
キモ：ViTのQATの精度劣化は、Attentionの情報劣化による。
Information Reactive Module (IRM) とDistibution Guided Distillation (DGD) で学習。
IRMはAttentionのエントロピー最大になるように決める。DGDは、レイヤ、ヘッド毎に蒸留する。
評価：DeiTやSwin Transformerで実験した。

画像や数式は論文から引用しています。 ↩

2

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

2