@satomineさんの回答に賛成です。
流体のごく限られた分野でHPCを齧っていますが、その立場から回答いたします。
一方はアルゴリズム的な観点からですが、流体を扱う際、特に非圧縮近似した場合には部分的にでも陰解法(一点の更新に他の多く、または全ての点の情報が必要)が用いられることが多いです。
よって10000コアを超えるような規模になるとノード間の通信が隠蔽しきれずボトルネックになってくるため、演算ユニットによる差は隠れる傾向があります。
最近はこれを克服するような手法(圧縮近似による完全陽解法)も出てきていますが、まだ主流にはなっていません。
また既存の流体ソルバに色々と複雑なアルゴリズムをくっつけて使うことも多く、その際OpenACCの機能では足りないのでCUDAで書く場合が多いですが、スレッド競合やキャッシュサイズ、warp divergenceなどを考慮してアルゴリズムを実装するのは結構大変で、結果GPUではかえって遅くなることもあります。
他方は現実的な観点からですが、(特に基礎研究を行っている)研究室は論文を書くのが至上目標で、それには手法なり物理なりの新規性が必要です。
新しい手法を開発したとしてそれ自体は論文になりますが、GPU上で性能を出すために諸々を考慮してチューニングすること自体は基本的に論文にならない上に、必要となる知識も全く異なります。
GPU用によくチューニングされた既存のコードがあったとしてもそこに新手法がフィットする保証はありません。
また物理メインの論文を書く場合、コードの高速化には時間を使いたくありません。
よって研究室規模ではとりあえずさっさと実装してワークステーション(CPU)でパラメータを振って計算を回そう、となることが多いのだと思います。
昔流体のとある手法をCPUとGPUの両方でスクラッチから実装して試したことがありますが、(私の実装の仕方が悪いのもあって)二倍弱しか性能が変わらず、じゃあCPUでさっと書いて計算させて他に時間を使ったほうがいいよね、と自己完結した記憶があります。
意欲的で優秀な学生さんがどこからともなく現れて手法開発とその論文執筆、さらにはGPU高速化とそれを使った物理の論文執筆まで通してやってくれれば理想ですが、現実にはなかなか難しいです(あとそうした人々は概してアカデミアに残りません)。
質問者様に期待いたします笑