Tensorflow は量子化モデルが使えるようになっています。通常、Tensorflowで出力するモデルは重みづけデータなどが浮動小数点のためマイコンシステムのメモリや計算資源を圧迫します。このモデルをより少ないビットで表現することを量子化モデルといいます。量子化を行うことによって、マイコンシステムで扱えるニューラルネットワークの幅を広げることができます。
SPRESENSE で Arduino IDE で Tensorflow lite/micro を使えるようにするには、専用のボードパッケージを使う必要があります。次の記事を参考にしてお使いの Arduino IDE にインストールをしてください。
また、SPRESENSEで Tensorflow のモデルを動かす場合は、バージョンは2.8.0である必要があります。(2022年4月3日現在)Anaconda3 などの Python 開発環境から、次のコマンドでインストールすることができます。
$ pip install tensorflow==2.8.0
SPRESENSE で動作確認するためのテストデータに MNIST のデータを使います。次の画像をダウンロードして使うことができますが、画像フォーマットはPNGからBMP(256階調グレー画像)に変換してください。変換したBMP画像はSPRESENSEから読み込めるように、SDカードやSpresense本体の内蔵フラッシュに転送してください。

import tensorflow as tf
from tensorflow import keras
import numpy as np
import matplotlib.pyplot as plt
import random
import binascii
# 60,000 training data and 10,000 test data of 28x28 pixel images
mnist = keras.datasets.mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
# Normalize the input images so that each pixel value is between 0 to 1.
train_images = (train_images / 255.0).astype("float32")
test_images = (test_images / 255.0).astype("float32")
train_labels = train_labels.astype("float32")
test_labels = test_labels.astype("float32")
# Define the model architecture
model = keras.Sequential([
keras.layers.InputLayer(input_shape=(28, 28)),
keras.layers.Reshape(target_shape=(28, 28, 1)),
keras.layers.Conv2D(filters=6, kernel_size=(5, 5), activation=tf.nn.relu),
keras.layers.MaxPooling2D(pool_size=(2, 2)),
keras.layers.Dense(32, activation=tf.nn.relu),
# Define how to train the model
model.compile(loss="sparse_categorical_crossentropy", optimizer="adam", metrics=["accuracy"])
# Train the digit classification model
model.fit(train_images, train_labels, batch_size=128, epochs=5, verbose=1)
# Print out the model summary
# Evaluate the model using all images in the test dataset.
test_loss, test_acc = model.evaluate(test_images, test_labels)
print('Test accuracy:', test_acc)
# Convert the model to TF Lite format.
converter = tf.lite.TFLiteConverter.from_keras_model(model)
tflite_float_model = converter.convert()
# Show the model size in KBs.
float_model_size = len(tflite_float_model) / 1024
print('Float model size = %dKBs.' % float_model_size)
# Save the model to disk
open('model.tflite', "wb").write(tflite_float_model)
Test accuracy: 0.9794
Float model size = 112KBs.
先ほどのニューラルネットワークを量子化します。Tensorflowには量子化のやり方はいくつかあるようですが、最も簡単なやり方である"ダイナミックレンジの量子化"を試してみました。これは中間層のモデルを浮動小数点32ビットから動的に8ビットの精度に量子化する手法です。量子化をするには、Tensorflow lite に変換するコードを次のように変更します。
# Convert the model to TF Lite format.
converter = tf.lite.TFLiteConverter.from_keras_model(model)
def representative_dataset_gen():
for i in range(100):
input_image = tf.cast(test_images[i], tf.float32)
input_image = tf.reshape(input_image, [1,28,28])
yield ([input_image])
converter.optimizations = [tf.lite.Optimize.DEFAULT]
converter.representative_dataset = representative_dataset_gen
# Convert the model
tflite_float_model = converter.convert()
# Convert the model to TF Lite format.
converter = tf.lite.TFLiteConverter.from_keras_model(model)
# Quantize the model
def representative_dataset_gen():
for i in range(100):
input_image = tf.cast(test_images[i], tf.float32)
input_image = tf.reshape(input_image, [1,28,28])
yield ([input_image])
converter.optimizations = [tf.lite.Optimize.DEFAULT]
tflite_float_model = converter.convert()
# Show model size in KBs.
float_model_size = len(tflite_float_model) / 1024
print('Quantized model size = %dKBs.' % float_model_size)
# Save the model to disk
open('qmodel.tflite', "wb").write(tflite_float_model)
# evaluate the quantized model
# A helper function to evaluate the TF Lite model using "test" dataset.
def evaluate_model(interpreter):
input_index = interpreter.get_input_details()[0]["index"]
output_index = interpreter.get_output_details()[0]["index"]
# Run predictions on every image in the "test" dataset.
prediction_digits = []
for test_image in test_images:
# Pre-processing: add batch dimension and convert to float32 to match with the model's input data format.
test_image = np.expand_dims(test_image, axis=0).astype(np.float32)
interpreter.set_tensor(input_index, test_image)
# Run inference.
# Post-processing: remove batch dimension and find the digit with highest probability.
output = interpreter.tensor(output_index)
digit = np.argmax(output()[0])
# Compare prediction results with ground truth labels to calculate accuracy.
accurate_count = 0
for index in range(len(prediction_digits)):
if prediction_digits[index] == test_labels[index]:
accurate_count += 1
accuracy = accurate_count * 1.0 / len(prediction_digits)
return accuracy
tflite_model_quant_file = "qmodel.tflite"
interpreter_quant = tf.lite.Interpreter(model_path=str(tflite_model_quant_file))
print('Quantized model accuracy: ',evaluate_model(interpreter_quant))
これを出力すると、112kB あったモデルが 31kB まで圧縮できました。モデルのサイズは約1/4になっています。
Float test accuracy: 0.976
Quantized model size = 31KBs.
Quantized model accuracy: 0.9765
次のコードで量子化モデルをC言語ヘッダーに出力します。Tensorflow に付属している"xxd"コマンドでも変換できますが、Arduino IDEに読み込ませるには、"UTF-8"にしておく必要があるので注意してください。
import binascii
def convert_to_c_array(bytes) -> str:
hexstr = binascii.hexlify(bytes).decode("UTF-8")
hexstr = hexstr.upper()
array = ["0x" + hexstr[i:i + 2] for i in range(0, len(hexstr), 2)]
array = [array[i:i+10] for i in range(0, len(array), 10)]
return ",\n ".join([", ".join(e) for e in array])
tflite_binary = open("qmodel.tflite", 'rb').read()
ascii_bytes = convert_to_c_array(tflite_binary)
header_file = "const unsigned char model_tflite[] = {\n " + ascii_bytes + "\n};\nunsigned int model_tflite_len = " + str(len(tflite_binary)) + ";"
# print(c_file)
open("qmodel.h", "w").write(header_file)
SPRESENSE用の次のスケッチで動作確認を行います。このスケッチはArduino用のBMPライブラリを使っています。次の Github からダウンロードして使ってください。
#include "tensorflow/lite/micro/all_ops_resolver.h"
#include "tensorflow/lite/micro/micro_error_reporter.h"
#include "tensorflow/lite/micro/micro_interpreter.h"
#include "tensorflow/lite/micro/system_setup.h"
#include "tensorflow/lite/schema/schema_generated.h"
#include "qmodel.h"
//#include "model.h"
#define TEST_FILE "0000.bmp"
tflite::ErrorReporter* error_reporter = nullptr;
const tflite::Model* model = nullptr;
tflite::MicroInterpreter* interpreter = nullptr;
TfLiteTensor* input = nullptr;
TfLiteTensor* output = nullptr;
int inference_count = 0;
constexpr int kTensorArenaSize = 20000;
uint8_t tensor_arena[kTensorArenaSize];
#include <Flash.h>
#include <BmpImage.h>
BmpImage bmp;
void setup() {
memset(tensor_arena, 0, kTensorArenaSize*sizeof(uint8_t));
// Set up logging.
static tflite::MicroErrorReporter micro_error_reporter;
error_reporter = µ_error_reporter;
// Map the model into a usable data structure..
model = tflite::GetModel(model_tflite);
if (model->version() != TFLITE_SCHEMA_VERSION) {
Serial.println("Model provided is schema version "
+ String(model->version()) + " not equal "
+ "to supported version "
} else {
Serial.println("Model version: " + String(model->version()));
// This pulls in all the operation implementations we need.
static tflite::AllOpsResolver resolver;
// Build an interpreter to run the model with.
static tflite::MicroInterpreter static_interpreter(
model, resolver, tensor_arena, kTensorArenaSize, error_reporter);
interpreter = &static_interpreter;
// Allocate memory from the tensor_arena for the model's tensors.
TfLiteStatus allocate_status = interpreter->AllocateTensors();
if (allocate_status != kTfLiteOk) {
Serial.println("AllocateTensors() failed");
} else {
Serial.println("AllocateTensor() Success");
size_t used_size = interpreter->arena_used_bytes();
Serial.println("Area used bytes: " + String(used_size));
input = interpreter->input(0);
output = interpreter->output(0);
/* check input */
if (input->type != kTfLiteFloat32) {
Serial.println("expected type is not float32");
} else {
Serial.println("input type is float32");
Serial.println("Model input:");
Serial.println("dims->size: " + String(input->dims->size));
Serial.println("dims->data[0]: " + String(input->dims->data[0]));
Serial.println("dims->data[1]: " + String(input->dims->data[1]));
Serial.println("dims->data[2]: " + String(input->dims->data[2]));
Serial.println("input->type: " + String(input->type));
Serial.println("Model output:");
Serial.println("dims->size: " + String(output->dims->size));
Serial.println("dims->data[0]: " + String(output->dims->data[0]));
Serial.println("dims->data[1]: " + String(output->dims->data[1]));
/* read test data */
File myFile = Flash.open(TEST_FILE);
if (!myFile) { Serial.println(TEST_FILE " not found"); return; }
Serial.println("Read " TEST_FILE);
BmpImage::BMP_IMAGE_PIX_FMT fmt = bmp.getPixFormat();
if (fmt != BmpImage::BMP_IMAGE_GRAY8) {
Serial.println("support format error");
int width = bmp.getWidth();
int height = bmp.getHeight();
Serial.println("width: " + String(width));
Serial.println("height: " + String(height));
uint8_t* img = bmp.getImgBuff();
for (int i = 0; i < width*height; ++i) {
input->data.f[i] = (float)(img[i]/255.0);
Serial.println("Do inference");
TfLiteStatus invoke_status = interpreter->Invoke();
if (invoke_status != kTfLiteOk) {
Serial.println("Invoke failed");
for (int n = 0; n < 10; ++n) {
float value = output->data.f[n];
Serial.println("[" + String(n) + "] " + String(value));
void loop() { /* do nothing */ }
Tensorflowが必要とするメモリ量である tensor_arena の値を比較してみると、次のようになりました。もともとの浮動小数点のモデルに対し、1/3のサイズになっています。1/4となっていないのは入力と出力が浮動小数点となっているためと思われます。
モデル | モデルサイズ | 必要メモリ量 | 認識精度 |
量子化前 | 112 kBytes | 18192 Bytes | 0.976 |
量子化後 | 31 kBytes | 6096 Bytes | 0.9765 |