はじめに
AI周りのエンジニアをしている方はGPU周りの環境を整えようとしたことがあると思います。ですが、調べるとnvidia-driver、cuda、cudnn、TensorRTをインストールすればいいことはわかるが依存関係がわからないのでよくわからなくなることがあると思います。
ここでは備忘録としてそれぞれの依存関係とインストール順序について記載します。
なお、Cudaをインンストールする際に身につけた知識ですので、何か間違っていたらご指摘お願いします。
Nvidia Driver
OSがGPUを使用するためのドライバーのこと、GPUを使用するために使わないといけないものなので、インストールしないといけないものとしてインストールしましょう。
CUDA
AIを使用するためのいろいろなアプリケーションが入っているとても重要なソフトウェア
TensorRT
AIの推論を早く行うためのライブラリ、SDK
cuDNN
Deep Learning用に用意されたライブラリ群
依存関係
これがすべてです。
Nvidia DriverがないとCUDAがそもそも使えません。
CUDAまで正しくインストールで来ていても、TensorRT, cuDNNがインストールされていても、Cudaのバージョンに沿った推論アクセラレータであるTensorRT、Deep Learning用ライブラリであるcuDNNをインストールする必要があります。
アンインストール
以下のサイトをご覧ください
https://kaz1.blog/2024/10/29/2024_10_29/
トラブルシューティング
その1: Nvidia Driverを確認
まず、Nvidia Driverが確実にインストールされているか確認しましょう
nvidia-smi
これで何か出てきたらしっかりインストールされています。
このとき、エラーが出たらnvidia系のものをすべて完全に削除してから再度インストールしましょう。このとき、Enroll MOKするか問われた時はyes
にしてください。
その2: Cudaを確認
nvcc
これで出てきたらOKです。これが出てこない場合は、cudaがインストールされていない or nvccにパスが通っていないのどちらかです。
次に、nvidia-driver
を実行したときに出力されているcudaよりもしたのバージョンであることも確認してください。
その3: cuDNN,TensorRT
cudaのバージョンとcuDNN、TensorRTのバージョンが互換性があるかどうかもう一度確認しましょう。