はじめに:CUDAエラーの根本原因を突き止めよう
PyTorchやTensorFlowを使った深層学習の環境構築で、意気揚々とコードを実行したら、以下のようなエラーに直面したことはありませんか?
# ありがちなエラーの例
>>> import torch
>>> torch.cuda.is_available()
False # 期待したTrueが返らない!
# または実行時に...
RuntimeError: CUDA error: no kernel image is available for execution on the device
# インストール時には...
This version of PyTorch is not compiled with CUDA capability 3.5 support.
これらのエラーは、開発者のやる気を一瞬で削ぐ厄介なものです。しかし、その根本原因は多くの場合、単一の要素に集約されます。それは、あなたのGPUの「計算能力(Compute Capability)」と、インストールしたCUDA関連ライブラリの互換性です。
本記事では、この根本原因を理解し、自分のGPUの計算能力を確認する3つの実践的方法と、確認後に取るべき具体的な解決策を、コード例と共に詳細に解説します。環境構築でつまずいている方は、まずここから始めてみましょう。
計算能力(Compute Capability)とは?なぜそんなに重要なのか
計算能力(Compute Capability)は、NVIDIA GPUの「世代」と「機能」を表すバージョン番号です。メジャー.マイナーの形式(例: 7.5, 8.6, 9.0)で表され、数字が大きいほど新しいアーキテクチャとなります。
計算能力が環境構築の鍵を握る理由
PyTorchやTensorFlowなどのフレームワークは、高速な計算のためにCUDA(NVIDIAのGPU計算プラットフォーム)を使用します。これらのフレームワークをpip installで簡単にインストールできるのは、あらかじめCUDAコードが特定の計算能力範囲向けにコンパイルされたバイナリが配布されているからです。
例えば、あるPyTorchのバージョンが「Compute Capability 3.7から8.6まで対応」と事前コンパイルされていたとします。ここに計算能力が3.5の古いGPUや、9.0の最新GPUを使うと、GPUは「実行できる命令(カーネルイメージ)がない」と判断し、冒頭のno kernel imageエラーを発生させるのです。
つまり、自分のGPUの計算能力を知ることは、互換性のあるソフトウェアを選ぶための最初の、そして最も重要なステップなのです。
【実践】GPUの計算能力を確認する3つの方法
ここからは、実際にご自身の環境で確認できる方法を、簡単な順に紹介します。
方法1: nvidia-smiでGPUモデルを特定 → 公式表で確認(最も手軽)
NVIDIAドライバがインストールされていれば、ほぼ全ての環境で使える最も簡単な方法です。ターミナル(Windows: コマンドプロンプト/PowerShell, Mac/Linux: ターミナル)を開いて次のコマンドを実行します。
nvidia-smi
以下のような出力が得られます。
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 535.154.05 Driver Version: 535.154.05 CUDA Version: 12.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce RTX 4060 Ti Off | 00000000:01:00.0 On | N/A |
| 0% 52C P0 65W / 160W | 1234MiB / 16384MiB | 15% Default |
この例では、GPU名が NVIDIA GeForce RTX 4060 Ti であることがわかります。
次に、このGPUモデル名(GeForce RTX 4060 Ti)を手がかりに、NVIDIAの公式ドキュメントで計算能力を調べます。
- NVIDIAのCUDA GPUsページにアクセス。
- ページ内検索(Ctrl+F)でモデル名(例: "4060 Ti")を検索。
- 該当する行の「Compute Capability」列を確認。RTX 4060 Tiの場合は
8.9です。
メリット: ドライバさえあればすぐ実行可能。
デメリット: 調査が一手間かかる。仮想環境などでは正確なモデル名が表示されない場合がある。
方法2: CUDA ToolkitのdeviceQueryで直接取得(最も正確)
CUDA Toolkitがインストールされている環境なら、これが最も確実な方法です。Toolkitに付属するサンプルプログラムを実行すると、計算能力を直接確認できます。
まず、CUDAサンプルが配置されているディレクトリに移動します。パスは環境によって異なります。
# Linuxの場合の典型的なパス
cd /usr/local/cuda/samples/1_Utilities/deviceQuery
# Windowsの場合(CUDA 11.7をデフォルトパスにインストールした例)
cd C:\ProgramData\NVIDIA Corporation\CUDA Samples\v11.7\1_Utilities\deviceQuery
移動したら、サンプルをコンパイルして実行します。
# Linux
make # コンパイル
./deviceQuery # 実行
# Windows (Visual Studio開発者コマンドプロンプト等を使用)
# ディレクトリ内の `.sln` ファイルをVSで開いてビルド&実行するか、
# 既に `deviceQuery.exe` があればそれを実行。
実行すると、以下のような詳細な出力が得られます。
Detected 1 CUDA Capable device(s)
Device 0: "NVIDIA GeForce RTX 3060"
CUDA Driver Version / Runtime Version 12.2 / 12.2
CUDA Capability Major/Minor version number: 8.6 <--- これが計算能力!
Total amount of global memory: 12288 MBytes (12884901888 bytes)
(略)
CUDA Capability Major/Minor version number: 8.6 という行が、このGPUの計算能力が 8.6 であることを示しています。
メリット: ハードウェアから直接情報を取得するため、最も正確。
デメリット: CUDA Toolkitのインストールと、場合によってはコンパイル環境が必要。
方法3: Pythonスクリプトでプログラムから確認(開発者向け)
PyTorchやTensorFlowが(部分的にでも)動く環境であれば、Pythonから直接確認する方法もあります。特に、PyTorchを使用する場合は以下のスクリプトが便利です。
import torch
if torch.cuda.is_available():
# 利用可能なGPUの数を取得
device_count = torch.cuda.device_count()
print(f"利用可能なGPU数: {device_count}")
for i in range(device_count):
# GPUのプロパティを取得
prop = torch.cuda.get_device_properties(i)
print(f"\nGPU {i}: {prop.name}")
print(f" - 計算能力: {prop.major}.{prop.minor}")
print(f" - 合計メモリ: {prop.total_memory / 1e9:.2f} GB")
else:
print("CUDAが利用できません。ドライバや計算能力の互換性を確認してください。")
実行結果例:
利用可能なGPU数: 1
GPU 0: NVIDIA GeForce RTX 4070
- 計算能力: 8.9
- 合計メモリ: 12.00 GB
メリット: 実際にフレームワークから認識されるGPU情報を確認できる。
デメリット: フレームワーク自体がGPUを認識できない(is_available() == False)状態では使えない。
計算能力を確認した後の具体的な解決策
自分のGPUの計算能力(例: 8.6)がわかったら、次のステップは互換性のある環境を構築することです。
ケース1: 計算能力が低すぎる(例: 3.5)場合
古いGPU(Kepler世代以前)をお使いの場合、最新のPyTorch/TensorFlowはサポート外です。
- 解決策: フレームワークの非常に古いバージョンを探すか、CPU版のみを使用することを検討します。根本的にはGPUのアップグレードが最も現実的な解決策です。
ケース2: 計算能力が高すぎる(例: 9.0)場合
非常に新しいGPUをお使いの場合、リリースされたばかりでフレームワークの事前コンパイルバイナリが追いついていない可能性があります。
-
解決策:
- 最新のフレームワークバージョンを試す: PyTorchのNightlyビルドや、TensorFlowの最新リリースは新しい計算能力をサポートしている場合があります。
- ソースからのビルド: フレームワークをソースコードから自分でコンパイルし、自分のGPUの計算能力をターゲットに含めます(上級者向け)。
- 少し待つ: 数ヶ月待てば、安定版リリースにサポートが追加されることがほとんどです。
ケース3: 計算能力が範囲内だがエラーが出る(例: 7.5)場合
最も多いケースです。計算能力はサポート範囲内なのに、CUDA Toolkitのバージョンとフレームワークのバージョンの組み合わせが悪い可能性が高いです。
-
解決策: 公式サイトの互換性表を厳密に確認します。
-
PyTorchユーザー: PyTorchのGet Startedページで、自分の環境に合ったコマンドを生成。ここで表示されるCUDAバージョンが、インストールしているNVIDIAドライバーがサポートするバージョンと一致しているか確認します(
nvidia-smiの右上のCUDA Versionはドライバーがサポートする最大のCUDAランタイムバージョンです)。 - TensorFlowユーザー: TensorFlowのバージョン互換性表を参照し、GPUドライバー、CUDA Toolkit、cuDNNのバージョンを揃えます。
-
PyTorchユーザー: PyTorchのGet Startedページで、自分の環境に合ったコマンドを生成。ここで表示されるCUDAバージョンが、インストールしているNVIDIAドライバーがサポートするバージョンと一致しているか確認します(
まとめ:確実なCUDA環境構築のフロー
-
まず確認:
nvidia-smiでGPUモデルを特定し、計算能力を調べる。 - 目標設定: 自分の計算能力をサポートするフレームワークのバージョンを、公式互換性表から逆引きする。
- 環境構築: 互換性表に記載された通りのバージョン組み合わせ(ドライバー、CUDA Toolkit、cuDNN、フレームワーク)で環境を構築する。
-
検証:
torch.cuda.is_available()やdeviceQueryで、GPUが正しく認識され、計算能力が表示されることを確認する。
計算能力の互換性は、CUDAを用いた開発における最初の関門です。この記事で紹介した方法で自分のGPUの「実力」を正しく知り、それに合ったツールを選ぶことで、無駄なデバッグ時間を大幅に削減できるはずです。
この記事の詳細版は元記事サイトで公開しています。