YOLO2をCPUで実行したプロファイル結果では、4.862秒のGEMM(畳み込み演算)を行っており処理の大部分を占めています。
入力される画像の解像度をVGA(640x480)としたとき畳み込み演算が23回、総計で146億回の積和算が行われました。
現在ノートパソコンに組み込まれているCore i5の内臓GPUの処理能力が約300GFLOPS(理論値)、SGEMMの実効値(clBLASなど)が200GFLOPS前後となるので、一秒あたり10回程度の画像認識が行える(はず)。
GPUカードの場合およそ3TFLOPSから12TFLOPSほどなので、YOLO2では毎秒100フレーム程度で認識ができます。
深層学習でのinfarence(推論)ではこのSGEMMによる畳み込み演算がボトルネックになり、GPUでの実装がカギとなっています。
MobileyeではEyeQチップに組み込まれたベクトル演算プロセッサが、MOVIDIUSではベクトル演算プロセッサSHAVEがこの畳み込み演算を行っています。