※この記事は投稿者が物体検出の最適化のお勉強をするための情報をまとめている。
自分なりに解釈した文字が多いのでご了承ください。
疑問・知りたいこと
- どういった原理でモデルの最適化ができているのか
- 他にも最適化の手法がないか
そもそもTensroRTとは
公式サイトによると
- CPUのみを使った場合よりも高速な実行が可能。
- モデルの前処理をすることで工場の検出器などに搭載可能
- 量子化を行うことでモデルのlatency(待ち時間)を短縮する
- 量子化はINT8とFP16の2種類を使用している
INT8とFP16とは
INT8:8 ビット整数
FP16:16 ビット半精度浮動小数点数
以下引用です。
TensorRT では推論時の演算精度を選択できます。どの GPU も、32 ビット単精度浮動小数点数 である FP32 >という演算精度をサポートしています。GPU によっては、16 ビット半精度浮動小数点数 である FP16、8 ビッ>ト整数である INT8 という演算精度をサポートしています。多くの場合、FP16 や INT8 を選択すると、FP32 よりもさらに高速に推論できます。
サポートされているGPU一覧
なら、Jetson nanoで使うならINT8にしてみよう。
具体的にどう計算してるの
公式サイトを例にみていく。
Torch-TensorRTのINT8は
2つの技術を使って実現している