float16だと処理速度が遅い理由は何ですか?
解決したいこと
Efficientnetで推論するAI実装を行っているのですが
サイクルタイムが間に合わずアイテム出しを行いました
その一つとして、float64で処理していたので、float16,32を試しました。
が、結果的にはfloat32が一番早かったので(精度もOK)
float32を採用すれば良いのですが、上の人たちにfloat16より早くなる理由が説明できず。
調べても答えが出ず。
そのため、質問することにしました
環境
試した環境は、
python3.7
Tensorflow-gpu:1.15
CUDA:10.0
cudnn:7.4
WINDOWS10、Ubuntu18.04
macM1も試しました
問題解決のために、もっと必要な情報があれば、申し付けください
0