More than 3 years have passed since last update.

[Tensorflow Lite] Various Neural Network Model quantization methods for Tensorflow Lite (Weight Quantization, Integer Quantization, Full Integer Quantization, Float16 Quantization, EdgeTPU). As of May 05, 2020.

Last updated at 2020-12-01Posted at 2020-05-05

日本語　English

- Japanese -

1. Introduction

今回は私が半年間掛けてためてきた、学習済みモデルの量子化ワークフローをメモがてら共有したいと思います。 Tensorflow の checkpoint (.ckpt/.meta)、 FreezeGraph (.pb)、 saved_model (.pb)、 keras_model (.h5)、 Tensorflow.js のモデル、 PyTorchのcheckpoint (.pth) を Tensorflow Lite用の量子化モデルへ変換するノウハウのアウトプットです。 Tensorflow に関しては v1.x から v2.x へメジャーバージョンアップしたこともあり、バージョン間の差異を吸収するために特殊な手順を踏む必要があったり、変換に着手するための素材が大きく不足していると感じることが多く、私なりにハマりにはまったすえにたどりついた内容をココに残します。 Tensorflow、 Tensorflow Lite、 Keras、 ONNX、 PyTorch、OpenVINO(OpenCV) を組み合わせて全て使用します。

日々Neural Networkの量子化に勤しんでいます。速い・安い・ウマいが大好物です。軽量化したモデルを使用して RaspberryPi4 などのエッジ端末でGPUを使わずにそこそこ高速に推論することを目的に量子化モデルを量産しています。一例ですが、モデルの 8bit整数量子化 (Integer Quantization) を行った上で RaspberryPi4 の CPUのみで２種類のモデルを多段推論した結果は以下の動画のような感じになります。 Object Detection (MobileNetV2-SSDLite dm=0.5) と Head Pose Estimation の２種類の量子化モデルを直列に実行しています。

Head Pose Estimation の RaspberryPi4 CPU only + Tensorflow Lite + 4 Threads はかなりうまくいきました。２段階推論にも関わらずサクサクの 13 FPS です。発想力が足りないため見苦しいオッサンの顔でテストしてしまったことをお許しください。あ〜、久々に達成感🤪https://t.co/hIwxA8eAZC
— Super PINTO (@PINTO03091) April 27, 2020

動画が小さくて見にくい、という方は こちらの PINTO_model_zoo に拡大したサンプルGIFがありますので Wi-Fi あるいは有線環境下でご覧ください。こちらはサイズが大きい10MBほどのGIFですのでWi-Fi環境下でご覧いただかないと皆様のスマホのギガを猛烈に消費します。

2. Table of contents

1. Introduction
2. Table of contents
3. Environment
4. Procedure
　4-1. Model の INPUT と OUTPUT の名前・型を調べるとともにバッチサイズ・型などを変更する
　　4-1-1. Tensorflow checkpoint の場合
　　4-1-2. Tensorflow Freeze_Graph の場合
　　4-1-3. Tensorflow saved_model の場合
　　4-1-4. Tensorflow/Keras .h5/.json の場合

　　4-2-2. Tensorflow checkpoint (.meta) からの量子化

　　4-2-3. Tensorflow Freeze_Graph (.pb) からの量子化

　　4-2-4. Tensorflow saved_model (.pb) からの量子化

　　4-2-5. Tensorflow/Keras (.h5/.json) からの量子化
　　　4-2-5-1. .h5/.json から Weight Quantization (重みのみの量子化)
　　　4-2-5-2. キャリブレーション用データセットの生成
　　　4-2-5-3. .h5/.json から Integer Quantization (8bit整数量子化)
　　　4-2-5-4. .h5/.json から Full Integer Quantization (全8bit整数量子化)
　　　4-2-5-5. .h5/.json から Float16 Quantization (Float16量子化)
　　　4-2-5-6. Full Integer Quantization から EdgeTPU convert

　　4-2-7. TensorFlow Object Detection API で生成したモデルを量子化
　　　4-2-7-1. Post-Process付きの .pb ファイルを生成する
　　　4-2-7-2. Freeze_Graph から Weight Quantization (重みのみの量子化)
　　　4-2-7-3. Freeze_Graph から Integer Quantization (8bit整数量子化)
　　　4-2-7-4. Freeze_Graph から Full Integer Quantization (全8bit整数量子化)
　　　4-2-7-5. Freeze_Graph から Float16 Quantization (Float16量子化)
　　　4-2-7-6. Full Integer Quantization から EdgeTPU convert

　　4-2-8. Tensorflow Lite が非対応かつ Tensorflow が対応済みのオペレーションを含むモデルの量子化
　　　4-2-8-1. Mask-RCNN Inception V2 の .pb ファイルを生成する
　　　4-2-8-2. Mask-RCNN Inception V2 の Weight Quantization (重みのみの量子化)
　　　4-2-8-3. Mask-RCNN Inception V2 の Float16 Quantization (Float16量子化)
　　　4-2-8-4. Flex Delegate (Tensorflow Select Ops) を有効にしたモデルの実行

　　4-2-9. PyTorch 用モデルからの量子化
　　　4-2-9-1. 事前準備 (PyTorch->ONNX)
　　　4-2-9-2. onnx2keras による ONNX->Keras コンバート
　　　4-2-9-3. saved_model から Weight Quantization (重みのみの量子化)
　　　4-2-9-4. saved_model から Integer Quantization (8bit整数量子化)
　　　4-2-9-5. saved_model から Full Integer Quantization (全8bit整数量子化)
　　　4-2-9-6. saved_model から Float16 Quantization (Float16量子化)
　　　4-2-9-7. Full Integer Quantization から EdgeTPU convert

　4-3. 量子化モデル (.tflite) のパフォーマンスベンチマーク
　　4-3-1. TFLite Model Benchmark Tool のビルド
　　4-3-2. TFLite Model Benchmark Tool のオプション
　　4-3-3. Tensorflow Lite 標準のオペレーションのみを含むモデルのベンチマーク例 (XNNPACK無し、4 Threads)
　　4-3-4. Tensorflow Lite 標準のオペレーションのみを含むモデルのベンチマーク例 (XNNPACK有り、4 Threads)
　　4-3-5. Tensorflow Lite 標準以外のオペレーションを含むモデルのベンチマーク例 (Flex有効、XNNPACK無し、4 Threads)
　　4-3-6. Tensorflow Lite 標準以外のオペレーションを含むモデルのベンチマーク例 (Flex有効、XNNPACK有り、4 Threads)
　　4-3-7. Benchmark_Toolの実行ログサンプル

　5. Finally

　6. Reference articles

3. Environment

Tensorflow-GPU v1.15.2
Tensorflow v2.1.0, v2.2.0 or tf-nightly
PythonAPIチューニング済み Tensorflow Lite
PyTorch
Caffe
OpenVINO 2020.2
OpenCV 4.2
onnx2keras
Netron
RaspberryPi4 + Ubuntu aarch64

[Tensorflow Lite] Various Neural Network Model quantization methods for Tensorflow Lite (Weight Quantization, Integer Quantization, Full Integer Quantization, Float16 Quantization, EdgeTPU). As of May 05, 2020.

- Japanese -

1. Introduction

2. Table of contents

3. Environment

4. Procedure

4-1. Model の INPUT と OUTPUT の名前・型を調べるとともにバッチサイズ・型などを変更する

4-1-1. Tensorflow checkpoint の場合

4-1-2. Tensorflow Freeze_Graph の場合

4-1-3. Tensorflow saved_model の場合

4-1-4. Tensorflow/Keras .h5/.json の場合

4-2. 様々な量子化手順

4-2-1. Tensorflow checkpoint (.ckpt) からの量子化

4-2-1-1. .index と .data-00000-of-00001 から .meta の生成

4-2-1-2. checkpoint (.meta) から Freeze_Graph を生成

4-2-1-3. Freeze_Graph から saved_model を生成

4-2-1-4. saved_model から Weight Quantization (重みのみの量子化)

4-2-1-5. saved_model から Integer Quantization (8bit整数量子化)

4-2-1-6. saved_model から Full Integer Quantization (全8bit整数量子化)

4-2-1-7. saved_model から Float16 Quantization (Float16量子化)

4-2-1-8. Full Integer Quantization から EdgeTPU convert

4-2-2. Tensorflow checkpoint (.meta) からの量子化

4-2-3. Tensorflow Freeze_Graph (.pb) からの量子化

4-2-4. Tensorflow saved_model (.pb) からの量子化

4-2-5. Tensorflow/Keras (.h5/.json) からの量子化

4-2-5-1. .h5/.json から Weight Quantization (重みのみの量子化)

4-2-5-2. キャリブレーション用データセットの生成

4-2-5-3. .h5/.json から Integer Quantization (8bit整数量子化)

4-2-5-4. .h5/.json から Full Integer Quantization (全8bit整数量子化)

4-2-5-5. .h5/.json から Float16 Quantization (Float16量子化)

4-2-5-6. Full Integer Quantization から EdgeTPU convert

4-2-6. Tensorflow.js 用モデルからの量子化

4-2-6-1. 事前準備

4-2-6-2. Tensorflow.js から saved_model の生成

4-2-6-3. Tensorflow v2.x で生成した saved_model を Tensorflow v1.x へ取り込んで入力形状を加工

4-2-6-4. Tensorflow v2.2.0 のインストール

4-2-6-5. saved_model から Weight Quantization (重みのみの量子化)

4-2-6-6. saved_model から Integer Quantization (8bit整数量子化)

4-2-6-7. saved_model から Full Integer Quantization (全8bit整数量子化)

4-2-6-8. saved_model から Float16 Quantization (Float16量子化)

4-2-6-9. Full Integer Quantization から EdgeTPU convert

4-2-7. TensorFlow Object Detection API で生成したモデルを量子化

4-2-7-1. Post-Process付きの .pb ファイルを生成する

4-2-7-2. Freeze_Graph から Weight Quantization (重みのみの量子化)

4-2-7-3. Freeze_Graph から Integer Quantization (8bit整数量子化)

4-2-7-4. Freeze_Graph から Full Integer Quantization (全8bit整数量子化)

4-2-7-5. Freeze_Graph から Float16 Quantization (Float16量子化)

4-2-7-6. Full Integer Quantization から EdgeTPU convert

4-2-8. Tensorflow Lite が非対応 かつ Tensorflow が対応済みのオペレーションを含むモデルの量子化

4-2-8-1. Mask-RCNN Inception V2 の .pb ファイルを生成する

4-2-8-2. Mask-RCNN Inception V2 の Weight Quantization (重みのみの量子化)

4-2-8-3. Mask-RCNN Inception V2 の Float16 Quantization (Float16量子化)

4-2-8-4. Flex Delegate (Tensorflow Select Ops) を有効にしたモデルの実行

4-2-9. PyTorch 用モデルからの量子化

4-2-9-1. 事前準備 (PyTorch->ONNX)

4-2-9-2. onnx2keras による ONNX->Keras コンバート

4-2-9-3. saved_model から Weight Quantization (重みのみの量子化)

4-2-9-4. saved_model から Integer Quantization (8bit整数量子化)

4-2-9-5. saved_model から Full Integer Quantization (全8bit整数量子化)

4-2-9-6. saved_model から Float16 Quantization (Float16量子化)

4-2-9-7. Full Integer Quantization から EdgeTPU convert

4-2-10. MediaPipe のモデル BlazeFace(.tflite) の量子化

4-2-10-1. flatc のビルド と schema.fbs のダウンロード

4-2-10-2. MediaPipe の BlazeFaceモデル(.tflite) をダウンロード

4-2-10-3. BlazeFace(.tflite) を saved_model(.pb) へ変換

4-2-10-4. saved_model から Weight Quantization (重みのみの量子化)

4-2-10-5. saved_model から Integer Quantization (8bit整数量子化)

4-2-10-6. saved_model から Full Integer Quantization (全8bit整数量子化)

4-2-10-7. saved_model から Float16 Quantization (Float16量子化)

4-2-10-8. Full Integer Quantization から EdgeTPU convert

4-3. 量子化モデル (.tflite) のパフォーマンスベンチマーク

4-3-1. TFLite Model Benchmark Tool のビルド

4-3-2. TFLite Model Benchmark Tool のオプション

4-3-3. Tensorflow Lite 標準のオペレーションのみを含むモデルのベンチマーク例 (XNNPACK無し、4 Threads)

4-3-4. Tensorflow Lite 標準のオペレーションのみを含むモデルのベンチマーク例 (XNNPACK有り、4 Threads)

4-3-5. Tensorflow Lite 標準以外のオペレーションを含むモデルのベンチマーク例 (Flex有効、XNNPACK無し、4 Threads)

4-3-6. Tensorflow Lite 標準以外のオペレーションを含むモデルのベンチマーク例 (Flex有効、XNNPACK有り、4 Threads)

4-3-7. Benchmark_Toolの実行ログサンプル

5. Finally

6. Reference articles

4-2-8. Tensorflow Lite が非対応かつ Tensorflow が対応済みのオペレーションを含むモデルの量子化

4-2-10-1. flatc のビルドと schema.fbs のダウンロード