1

More than 1 year has passed since last update.

NeurIPS2022の量子化論文 (2)

Last updated at 2023-05-28Posted at 2023-03-13

概要

この記事では、NeurIPS2022の量子化論文を紹介します。¹
(その1)

ClimbQ: Class Imbalanced Quantization Enabling Robustness on Efficient Inferences

概要：Class-imbalancedな場合の量子化
新規性：Class-imbalancedな時量子化精度が小クラスで落ちる課題を解決する。
キモ：(a)量子化前にデータ分布に合わせてスケーリングし、量子化後のスケールが同じになるようにする。
(b)データ数が少ないクラスはロスを重くする。データ数の基準はHomoVar Lossで決める。
評価：CIFAR-10-LT, CIFAR-100-LTで評価した。

Is Integer Arithmetic Enough for Deep Learning Training?

概要：整数のみによる学習・推論
研究機関：Huawei
新規性：整数のみ学習で、Float精度と同じロス・精度のtrajectryで学習
キモ：各指数部を、最大値$e_{max}$で揃える形で固定小数点化する。
ロスのFloatと整数の差分の上界で評価する。(Theorem 1)
評価：ResNet18分類タスクで評価した。物体検出等でも評価した。

FP8 Quantization: The Power of the Exponent

概要：FP8量子化とINT8量子化との比較
研究機関：Qualcomm
新規性：PTQすればINT8よりFP8の方が精度が良くなることを示した。
キモ：INT8の代わりにFP8で量子化する。学習時にQAT的にレンジを決めて、FP8のレンジを補正できる。(flex)
評価：ResNet18, MobileNetV2によるImageNet学習やGLUEで評価した。

Deep Compression of Pre-trained Transformer Models

概要：Transformerモデルを学習済みモデルからFine-tuneする方法でモデル圧縮する方法
研究機関：IBM
新規性：4bit量子化でBERT等を50%sparseにできたのは初
キモ：重み量子化にはSWAB+を使う。量子化誤差最小化に1, 2次モーメントを使う。
Activation量子化は普通の量子化をする。
評価：BERTやViTで評価した。

画像や数式は論文から引用しています。 ↩

1

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

1