2

More than 1 year has passed since last update.

NeurIPS2022の量子化論文 (3)

Last updated at 2023-05-28Posted at 2023-04-09

概要

この記事では、NeurIPS2022の量子化論文を紹介します。¹
(その1 その2)

On-Device Training Under 256KB Memory

概要：Tiny Training Engine (TTE)。256KBメモリで学習
新規性：256KBメモリ以下で学習するものは初。量子化されたNWはBNが無いので収束が難しい課題を解決
キモ：(1)QAS(Quantization Aware Scaling). Weightとbiasはビット数が異なるのでスケールを合わせる。

(b)Sparse Update. 重要でない勾配は計算を省く。
評価：MCU-Netsで評価した。

Optimal Brain Compression: A Framework for Accurate Post-Training Quantization and Pruning

概要：OBC. OBSと同時に枝刈りする。
新規性：OBSの計算量を近似などで削減した。
キモ：OBSの計算は行毎に分割すれば計算量を削減できる。
評価：Unstructured 又は N:M Sparsity枝刈りでResNet, YOLO, BERTで評価した。

Towards Efficient Post-training Quantization of Pre-trained Language Models

概要：巨大事前学習モデルの量子化で、PTQによるもの
研究機関：Huawei
新規性：事前学習モデルからQATするのではなく、PTQで量子化する。PTQで精度を上げる
キモ：
(1)MREM. Transformerレイヤ毎に2乗誤差を最小化する((2)式)。
(2)Accelerated Parallel Training. (1)をモジュール毎に分割して学習する。
(3)Annealed Teaching Forcing. Floatでの計算結果も混ぜながら処理する((3)式)。
評価：BERT, GLUEでQATと比較

Not All Bits have Equal Value: Heterogeneous Precisions via Trainable Noise

概要：混合量子化でビット数を決める方法。Post-processの学習による。
新規性：ノイズを与えながら学習してノイズ幅でビット数を決める。
キモ：学習時にノイズをのせて学習する。
評価：ResNet, MobileNetV2, CIFAR等で実験

おまけ

Optimal Brain Surgeon: Extensions and performance comparisons

OBS. ロスのテイラー展開の2次の項(Hessian)の小さいものはロスへの寄与が小さいとして刈る。

画像や数式は論文から引用しています。 ↩

2

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

2