CUDA 7.5のサンプルコード関連で調べているうちに以下を見つけた。
1つのマルチプロセッサ(SM)で同時に扱えるスレッド数には制限がある。
SMのスレッド制限数の情報は未消化。
それを探しているうちに以下を見つけた。
http://www.gdep.jp/column/view/3
手元にあるカーネルをいろいろなブロック数、スレッド数の組み合わせで100回ずつ実行した結果の平均を下に示しました。
ブロック数とスレッド数による時間がどういう感じがつかめる。
Fermiがどうたらというのは今後もっと分かってから追及することにする。