LoginSignup
4
3

More than 5 years have passed since last update.

YOLO2での計算量を調べてみた

Last updated at Posted at 2017-08-16

一般物体認識のYOLO2での計算量を調べてみました。
profiling.PNG

YOLO2をCPUで実行したプロファイル結果では、4.862秒のGEMM(畳み込み演算)を行っており処理の大部分を占めています。

入力される画像の解像度をVGA(640x480)としたとき畳み込み演算が23回、総計で146億回の積和算が行われました。

image.png

現在ノートパソコンに組み込まれているCore i5の内臓GPUの処理能力が約300GFLOPS(理論値)、SGEMMの実効値(clBLASなど)が200GFLOPS前後となるので、一秒あたり10回程度の画像認識が行える(はず)。
GPUカードの場合およそ3TFLOPSから12TFLOPSほどなので、YOLO2では毎秒100フレーム程度で認識ができます。

深層学習でのinfarence(推論)ではこのSGEMMによる畳み込み演算がボトルネックになり、GPUでの実装がカギとなっています。

MobileyeではEyeQチップに組み込まれたベクトル演算プロセッサが、MOVIDIUSではベクトル演算プロセッサSHAVEがこの畳み込み演算を行っています。
Mobileye-EyeQ4-architecture-MIPS-interAptiv-M5150-CPU-600x500.png

Movidius SHAVE.PNG

4
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
3