個々のEdge TPUは、各TOPSに0.5ワット(ワットあたり2 TOPS)を使用して、1秒間に4兆回の操作(テラ操作)を実行できます。 それがアプリケーションのパフォーマンスにどのように変換されるかは、さまざまな要因によって異なります。 すべてのニューラルネットワークモデルにはそれぞれ異なる要求があり、USB Acceleratorデバイスを使用している場合、全体のパフォーマンスもホストCPU、USB速度、およびその他のシステムリソースによって異なります。
購入代理店:https://store.gravitylink.com
そうは言っても、以下の表1は、Edge TPUでいくつかの一般的なモデルと単一の推論を実行するのに費やされた時間を比較したものです。
これは、Edge TPUと互換性のある少数のモデルアーキテクチャを表しています(これらはすべて、1,000クラスのImageNetデータセットを使用してトレーニングされています)。 自分のモデルをテストしたい場合は、モデルアーキテクチャーの要件を読んでください。
注:これらの数値は、モデルの実行に必要な時間のみを測定しています。 入力データを処理する時間(入力テンソルに合わせて画像を縮小するなど)は含まれません。これはシステムとアプリケーションによって異なります。 これらのテストもC ++ベンチマークテストを使用して実行されますが、私たちのパブリックPythonベンチマークスクリプトはPythonからのオーバーヘッドのために遅くなるかもしれません。
1.推論あたりの時間、ミリ秒(ms)
- デスクトップCPU:64ビットIntel(R)Xeon(R)E5-1650 v4 @ 3.60GHz
- 組込みCPU:クアッドコアCortex-A53 @ 1.5GHz
- Dev Board:クアッドコアCortex-A53 @ 1.5GHz + Edge TPU
- 一部の操作はCPU上で実行する必要があるため、パフォーマンスが低下します
Edge TPUランタイムのバージョン10ではサポートされていません。 アップデートは近日中に公開される予定です。