FPGA を使えるARMのSoCボード Ultra96について調査中
-
Interface 2019年1月号 小型リアルタイム組み込み人工知能【PDF版】
に以下の記事があります。
【第3部 最強FPGAボードで人工知能カリカリ画像認識】
64ビットCortex-A/GPU/FPGAチップ搭載で3万円
第1章 組み込み人工知能にピッタリ!最強Arm FPGAボード「Ultra96」
開発環境の準備からLinux&My回路生成まで
第2章 最強ArmコアFPGAボードUltra96の基本的な使い方
Youtube 【最強FPGAボード】Ultra96ボードでYOLOを高速化
Youtube 【最強FPGAボード】Ultra96ボードを使ったインベーダーゲーム
Youtube 【Ultra96ボードの新AI】DeePhiの紹介
SlideShare Good Arm FPGA Board Ultra96 and Google AI YOLO
SlideShare Ultra96ボードでYOLOを高速化
Ultra96で実行
YOLO v3 19.4秒
YOLO v3 tiny 1.03秒
やはり、ネットワークの構造の規模が、処理時間のなり続けている。
このスライドで示しているモデルでは、「浮動小数点の行列演算をPLでオフロード」するものである。
github Ultra96-yolo
SlideShare NEONによるYOLO高速化 p.21
追記
Xilinxのgithubページで各種 深層学習をUltra96 のデバイスで実装した時にどれだけのレイテンシーとスループットが出るのかを記している。
https://github.com/Xilinx/AI-Model-Zoo
「Click here to view details」とある部分をクリックすると、各種のモデルでのレイテンシ、end to end のスループットをみることができる。
yolov3の各種モデルもあるし、
face_landmark
Openpose_pruned_0_3
もある。
XILINXのFPGAを使って画像処理を加速させたいのなら
YoloV3 の例
https://github.com/Xilinx/Vitis-AI/blob/master/Vitis-AI-Library/yolov3/test/test_yolov3.cpp
追記
また、こちらの図は横軸が演算コスト、縦軸が ImageNetのTop-1の認識率になります。
円グラフはパラメータ数になります。
理想は 認識率が高く 演算コストが低く パラメータ数が小さいものになるかと思います。
上記のリンク先から 引用
追記
NNgen
SlideShare DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ