ここで言及されているfloat16がNumPyのfloat16かどうか分かりませんが、Pythonの基礎となるC言語(およびCPU命令セット)にはfloat16に相当する型がないため、NumPyでfloat16をエミュレートしているため、float16はfloat32やfloat64よりも遅くなるそうです。
Like!
Efficientnetで推論するAI実装を行っているのですが
サイクルタイムが間に合わずアイテム出しを行いました
その一つとして、float64で処理していたので、float16,32を試しました。
が、結果的にはfloat32が一番早かったので(精度もOK)
float32を採用すれば良いのですが、上の人たちにfloat16より早くなる理由が説明できず。
調べても答えが出ず。
そのため、質問することにしました
試した環境は、
python3.7
Tensorflow-gpu:1.15
CUDA:10.0
cudnn:7.4
WINDOWS10、Ubuntu18.04
macM1も試しました
問題解決のために、もっと必要な情報があれば、申し付けください
ここで言及されているfloat16がNumPyのfloat16かどうか分かりませんが、Pythonの基礎となるC言語(およびCPU命令セット)にはfloat16に相当する型がないため、NumPyでfloat16をエミュレートしているため、float16はfloat32やfloat64よりも遅くなるそうです。