Ubuntu
DeepLearning

UbuntuにCUDAを入れようとしたらハマった

More than 1 year has passed since last update.

背景

Deep Learning用に手元のcuda対応のグラボが指してあるLinuxPCにcudaを入れるべく、公式ドキュメントの通りにインストールしたらハマりました。

試した環境

  • ubuntu 14.04
  • GeForce GTX 560
  • CUDA 7.0

行った手順

nvidiaの環境の確認

lspci | grep -i nvidia
=====================
01:00.0 VGA compatible controller: NVIDIA Corporation GF114 [GeForce GTX 560] (rev a1)
01:00.1 Audio device: NVIDIA Corporation GF114 HDMI Audio Controller (rev a1)

ubuntuの環境確認

uname -m && cat /etc/*release
===================================
x86_64
DISTRIB_ID=Ubuntu
DISTRIB_RELEASE=14.04
DISTRIB_CODENAME=trusty
DISTRIB_DESCRIPTION="Ubuntu 14.04.2 LTS"
NAME="Ubuntu"
VERSION="14.04.2 LTS, Trusty Tahr"
ID=ubuntu
ID_LIKE=debian
PRETTY_NAME="Ubuntu 14.04.2 LTS"
VERSION_ID="14.04"
HOME_URL="http://www.ubuntu.com/"
SUPPORT_URL="http://help.ubuntu.com/"
BUG_REPORT_URL="http://bugs.launchpad.net/ubuntu/"

gcc環境設定

sudo apt-get install build-essential
gcc --version

CUDA 7.0 インストール

パッケージファイルのダウンロード

wget http://developer.download.nvidia.com/compute/cuda/7_0/Prod/local_installers/rpmdeb/cuda-repo-ubuntu1404-7-0-local_7.0-28_amd64.deb

インストール

sudo dpkg -i cuda-repo-ubuntu1404-7-0-local_7.0-28_amd64.deb  
sudo apt-get update  
sudo apt-get install cuda

環境変数設定

export PATH=/usr/local/cuda-7.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-7.0/lib64:$LD_LIBRARY_PATH
source .bashrc
sudo init 6

再起動

sudo init 6

確認

cat /proc/driver/nvidia/version

NVRM version: NVIDIA UNIX x86_64 Kernel Module  346.46  Tue Feb 17 17:56:08 PST 2015
GCC version:  gcc version 4.8.4 (Ubuntu 4.8.4-2ubuntu1~14.04) 
nvcc -V

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2015 NVIDIA Corporation
Built on Mon_Feb_16_22:59:02_CST_2015
Cuda compilation tools, release 7.0, V7.0.27
dpkg -l | grep nvidia

ii  nvidia-346                                            346.46-0ubuntu1                                     amd64        NVIDIA binary driver - version 346.46
ii  nvidia-346-dev                                        346.46-0ubuntu1                                     amd64        NVIDIA binary Xorg driver development files
ii  nvidia-346-uvm                                        346.46-0ubuntu1                                     amd64        NVIDIA Unified Memory kernel module
ii  nvidia-modprobe                                       346.46-0ubuntu1                                     amd64        Load the NVIDIA kernel driver and create device files
ii  nvidia-opencl-icd-346                                 346.46-0ubuntu1                                     amd64        NVIDIA OpenCL ICD
ii  nvidia-prime                                          0.6.2                                               amd64        Tools to enable NVIDIA's Prime
ii  nvidia-settings                                       346.46-0ubuntu1                                     amd64        Tool for configuring the NVIDIA graphics driver

サンプルファイル実行

cd /usr/local/cuda-7.0/sample
sudo make
cd bin
sudo ./deviceQuery

cd ../0_Simple/bandwidthTest
sudo ./bandwidthTest

ハマったところ

サンプルファイルの実行の際に、deviceQueryを実行させても、何も返ってこずフリーズする。
ためしに以下のコマンドを打って、gpuの状態を確認しようとしても、同じくフリーズする。
nvidia-smi

またx-windowが表示されなくなった。

原因

nouveauとNVidiaのドライバを同時に使用すると、うまくいかない。
公式ドキュメントでは、2つのインストール方法が記載されており、1つは今回行った、パッケージマネージャーを利用する方法、もう一つはインストーラーを利用する方法である。
後者のほうでは、インストールを開始する前の手順にこのような記載があった

To install the Display Driver, the Nouveau drivers must first be disabled.

"ディスプレイドライバをインストールするときは、まずNouveauを無効にすべし"

CentOSで行った他の方の記事でも、同様の記載があったため、ここが怪しいと判断。

対応方法

ubuntuでNouveauを無効にする方法は公式ドキュメントに書いてあり、

/etc/modprobe.d/blacklist-nouveau.confを作成
以下を記載
blacklist nouveau
options nouveau modeset=0

sudo /sbin/mkinitrd
sudo init 6

でいける。これを行った後、x-windowが復帰し、サンプルファイルの実行でフリーズすることがなくなった。

参考

CentOS 6.6 上で NVIDIA の GPU (の一部) と共に nouveau 使うと発狂して死ぬ
公式ドキュメント
UbuntuでNVIDIAのディスプレイドライバが動作しない場合のチェック項目