概要
この記事では、NeurIPS2022の量子化論文を紹介します。1
(その1 その2 その3)
BiT: Robustly Binarized Multi-distilled Transformer
- 概要:Transformerの2値化
- 研究機関:Meta
- 新規性:Transformerを実用的に2値化したものは初(画像では以前にあった)
- キモ:蒸留とSTE
- 評価:BERT, GLUEで評価した
ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers
- 概要:大規模NLPモデル向けPTQ
- 研究機関:Microsoft
- 新規性:大規模NLPモデルをFP16からINT4/INT8に精度維持で高速化した
- キモ:(1)Ampare向け Group-wise量子化 (2)レイヤ毎に蒸留 (3)CUTLASSで行列積
- 評価:BERT等で評価
UDC: Unified DNAS for Compressible TinyML Models for Neural Processing Units
- 概要:UDC. Unstructuredで圧縮可能なTinyMLモデルを探すNAS
- 研究機関:Meta, NVIDIA, Tenstorrent, Arm, Qualcomm
- 新規性:従来より速く精度高い。ネットワークのアーキテクチャ、ビット幅、量子化、Sparsityを最適化できる。
- キモ:量子化、Sparsityの効果をモデルサイズで押さえられること。これでロス関数を定義して最適化する
- 評価:NPUを使用したTinyMLでSOTA
-
画像や数式は論文から引用しています。 ↩