概要
この記事では、NeurIPS2022の量子化論文を紹介します。1
(その1 その2)
On-Device Training Under 256KB Memory
- 概要:Tiny Training Engine (TTE)。256KBメモリで学習
- 新規性:256KBメモリ以下で学習するものは初。量子化されたNWはBNが無いので収束が難しい課題を解決
- キモ:(1)QAS(Quantization Aware Scaling). Weightとbiasはビット数が異なるのでスケールを合わせる。
(b)Sparse Update. 重要でない勾配は計算を省く。 - 評価:MCU-Netsで評価した。
Optimal Brain Compression: A Framework for Accurate Post-Training Quantization and Pruning
- 概要:OBC. OBSと同時に枝刈りする。
- 新規性:OBSの計算量を近似などで削減した。
- キモ:OBSの計算は行毎に分割すれば計算量を削減できる。
- 評価:Unstructured 又は N:M Sparsity枝刈りでResNet, YOLO, BERTで評価した。
Towards Efficient Post-training Quantization of Pre-trained Language Models
- 概要:巨大事前学習モデルの量子化で、PTQによるもの
- 研究機関:Huawei
- 新規性:事前学習モデルからQATするのではなく、PTQで量子化する。PTQで精度を上げる
- キモ:
(1)MREM. Transformerレイヤ毎に2乗誤差を最小化する((2)式)。
(2)Accelerated Parallel Training. (1)をモジュール毎に分割して学習する。
(3)Annealed Teaching Forcing. Floatでの計算結果も混ぜながら処理する((3)式)。 - 評価:BERT, GLUEでQATと比較
Not All Bits have Equal Value: Heterogeneous Precisions via Trainable Noise
- 概要:混合量子化でビット数を決める方法。Post-processの学習による。
- 新規性:ノイズを与えながら学習してノイズ幅でビット数を決める。
- キモ:学習時にノイズをのせて学習する。
- 評価:ResNet, MobileNetV2, CIFAR等で実験
おまけ
Optimal Brain Surgeon: Extensions and performance comparisons
- OBS. ロスのテイラー展開の2次の項(Hessian)の小さいものはロスへの寄与が小さいとして刈る。
-
画像や数式は論文から引用しています。 ↩