環境
- Windows 11 Home + WSL2 (Ubuntu 24.04)
- NVIDIA RTX 4060 Laptop GPU (VRAM 8GB)
- CUDA 12.4対応 / PyTorch 2.6.0+cu124
- Python仮想環境 (jupyter_env)
セットアップ手順
1. WSL2/CUDA環境の確認
# PyTorch/CUDA検証
python3 -c "import torch; print(f'PyTorch: {torch.__version__}\nCUDA: {torch.cuda.is_available()}')"
# GPUドライバ確認
nvidia-smi
2. Git LFSのインストール
sudo apt install git-lfs
git lfs install --system
3. モデルのダウンロード
# 安定したクローン方法
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
cd DeepSeek-R1-Distill-Qwen-14B
git lfs pull
4. Ollamaのセットアップ
# インストール
curl -fsSL https://ollama.com/install.sh | sh
# サービス設定
sudo tee /etc/systemd/system/ollama.service <<EOF
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_MODELS=/usr/share/ollama/models"
[Install]
WantedBy=default.target
EOF
# サービス起動
sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama
sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama
5. モデルの登録と実行
# Modelfile作成
cat > Modelfile <<EOL
FROM ./DeepSeek-R1-Distill-Qwen-14B-Q4_K_M.gguf
PARAMETER num_gpu 35
PARAMETER num_thread 6
SYSTEM "あなたは日本語専門のAIアシスタントです"
EOL
# モデル登録
ollama create deepseek-ja -f Modelfile
# 動作確認
ollama run deepseek-ja "こんにちは"
6. Jupyter Notebook連携
import requests
def ask_deepseek(prompt, system_prompt=""):
full_prompt = f"{system_prompt}\n\n{prompt}" if system_prompt else prompt
response = requests.post(
'http://localhost:11434/api/generate',
json={
'model': 'deepseek-ja',
'prompt': full_prompt,
'stream': False
}
)
return response.json()['response']
# 使用例
result = ask_deepseek("Pythonについて説明してください")
print(result)
パフォーマンス特性
- VRAM使用量: 約5.8GB
- 推論速度: 12-15 tokens/sec
- レイテンシ: 初回3-5秒、以降1-2秒
トラブルシューティング
- CUDA Out of Memory → num_gpu値を25-30に調整
- 文字化け →
LANG=ja_JP.UTF-8
を設定 - WSL2 GPU認識エラー →
wsl --shutdown
後に再起動
この手順で、RTX 4060搭載ノートPCでDeepSeek-R1の日本語モデルが利用可能になります。8GB VRAMの制約内で安定した推論が可能です。