「手元の Windows PC でローカル LLM を試したい」と思って WSL2 + Ollama 環境を構築した記録です。途中で何度かハマりポイントがあったので、同じ構成の人が詰まらないように手順とつまずきも含めて残しておきます。
経緯
- 最近はMacを使用しているためWindowsPCが化石のように起動していませんでした
- ローカルLLMにはハマっており、CUDA環境をサクッと試したかった
- 初めてのCUDA+LLM+Windowsなので備忘録もかけて残しておく
環境
| 項目 | スペック |
|---|---|
| CPU | Intel Core i7-10700K @ 3.80GHz (8C/16T) |
| RAM | 32GB DDR4 (2667 MT/s) |
| GPU | NVIDIA GeForce GTX 1660 SUPER (VRAM 6GB) |
| ストレージ | 943GB SSD(空き約 700GB) |
| OS | Windows 11 Pro 25H2 (Build 26200.8328) |
VRAM 6GB は最新フラッグシップモデルには足りませんが、4B〜7B クラスの量子化モデルなら快適に動かせる構成です。
ステップ 1: Windows バージョンの確認
WSL2 + CUDA を使うには Windows 11、または Windows 10 21H2 以降が必須です。
Win + R → winver
または「設定 → システム → バージョン情報」から「Windows の仕様」を確認します。
ステップ 2: NVIDIA ドライバの更新
これが最初の落とし穴でした。
nvidia-smi を PowerShell で実行してドライバを確認します。
nvidia-smi
私の場合、初期状態では Driver 457.51 / CUDA 11.1(2020 年 11 月リリース)という骨董品クラスでした。これでは WSL2 から GPU は見えません。
WSL2 + CUDA に必要なドライバ要件:
- 最低: Driver 470 以上(NVIDIA が WSL2 GPU サポートを正式に始めたバージョン)
- 推奨: Driver 525 以上(CUDA 12.x 対応)
- ベスト: 最新版(CUDA 13.x 対応、Ollama や llama.cpp の最新ビルドが快適)
NVIDIA 公式サイトから最新ドライバを取得します。
- 製品の種類: GeForce
- 製品シリーズ: GeForce 16 Series
- 製品: GeForce GTX 1660 SUPER
- OS: Windows 11
- ダウンロードタイプ: Studio Driver (SD) または Game Ready Driver (GRD)
インストール時は「カスタム」→「クリーンインストール」にチェックを入れると古いドライバの残骸が消えてキレイです。
インストール後は PC を再起動。再度 nvidia-smi で確認:
NVIDIA-SMI 596.36 Driver Version: 596.36 CUDA Version: 13.2
これで CUDA 13.2 まで上がりました。
ステップ 3: WSL2 のインストール
管理者権限の PowerShell で:
wsl --install -d Ubuntu-24.04
これ一発で WSL2 カーネル、仮想化機能、Ubuntu 24.04 が全部入ります。インストール後に再起動を求められたら再起動。
再起動後に自動で Ubuntu のセットアップ画面が開くので、UNIX ユーザー名とパスワードを設定します。
つまずきポイント: 古い WSL1 ディストロがあると邪魔をする
ここで罠にハマりました。wsl とだけ打ってターミナルに入って nvidia-smi を実行すると:
NVIDIA-SMI couldn't find libnvidia-ml.so library in your system.
ドライバは最新にしたのに動かない。原因を調べるため wsl -l -v を実行:
NAME STATE VERSION
* Ubuntu-20.04 Running 1
Ubuntu-24.04 Stopped 2
docker-desktop Running 2
過去にインストールした Ubuntu-20.04 が WSL1 のままデフォルトになっていました。wsl コマンドはデフォルトのディストロを起動するので、私は気づかないうちに WSL1 環境で nvidia-smi を叩いていたわけです。
WSL1 は CUDA に非対応なので、ここでは絶対に GPU が見えません。
修正手順:
# Ubuntu-24.04 をデフォルトに変更
wsl --set-default Ubuntu-24.04
# 全 WSL を一旦シャットダウン
wsl --shutdown
# 確認(* が Ubuntu-24.04 についていれば OK)
wsl -l -v
ステップ 4: WSL から GPU が見えるか確認
WSL2 の Ubuntu を起動して:
nvidia-smi
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 595.71.01 Driver Version: 596.36 CUDA Version: 13.2 |
+-----------------------------------------+------------------------+----------------------+
| 0 NVIDIA GeForce GTX 1660 ... On | 00000000:01:00.0 On | N/A |
| 35% 41C P5 24W / 125W | 1744MiB / 6144MiB | 0% Default |
+-----------------------------------------+------------------------+----------------------+
GTX 1660 SUPER が認識されました。WSL 側に CUDA Toolkit をインストールする必要はありません。Windows のドライバが /usr/lib/wsl/lib/libnvidia-ml.so を自動マウントしてくれる仕組みです。
ステップ 5: Ollama のインストール
WSL の Ubuntu で公式インストーラを実行:
curl -fsSL https://ollama.com/install.sh | sh
つまずきポイント: zstd が必要
最近の Ollama インストーラは zstd を要求します。
ERROR: This version requires zstd for extraction. Please install zstd and try again:
- Debian/Ubuntu: sudo apt-get install zstd
事前に入れておきましょう:
sudo apt update
sudo apt install -y zstd
curl -fsSL https://ollama.com/install.sh | sh
インストール中に「NVIDIA GPU detected」のログが出れば GPU 対応版が入っています。systemd サービスとして自動起動するので、追加コマンドは不要です。
モデルの選び方:VRAM 6GB で何が動くか
ローカル LLM の VRAM 必要量はざっくり次の式で見積もれます。
| 量子化 | 必要 VRAM の目安 | 品質 |
|---|---|---|
| Q4 (Q4_K_M) | パラメータ数 × 0.6GB | 軽い、実用十分 |
| Q5 | パラメータ数 × 0.75GB | バランス型 |
| Q8 | パラメータ数 × 1.0GB | ほぼ無損失 |
| FP16 | パラメータ数 × 2.0GB | フル精度 |
これに KV キャッシュで +1〜3GB が必要です。Ollama のデフォルト量子化は Q4_K_M。
VRAM 6GB で動く Qwen 系の選択肢
| モデル | サイズ | 特徴 |
|---|---|---|
qwen3:4b |
約 2.5GB | Qwen3 世代の小型版。Qwen2.5-72B に匹敵する性能を主張 |
qwen3:1.7b |
約 1.4GB | さらに軽量、サクサク |
qwen2.5:7b |
約 4.7GB | 前世代だが安定、日本語こなれている |
qwen2.5:3b |
約 2GB | 軽量、入門向け |
qwen2.5-coder:7b |
約 4.7GB | コーディング特化 |
最初に試すなら qwen3:4b がバランス◎。
ollama run qwen3:4b
初回はモデルダウンロード(数分)後、>>> プロンプトが出るので適当に話しかけると応答します。終了は /bye。
「最新フラッグシップ」を動かしたい場合の VRAM 目安
ちなみに 2026 年時点の Qwen 最新世代 (Qwen3.6) を動かそうとすると、こんな VRAM が必要です。
| VRAM | 動かせるレベル |
|---|---|
| 6GB (GTX 1660 SUPER) | 4B クラスまで、7B Q4 がギリギリ |
| 8GB (RTX 4060) | 8B Q4 が快適 |
| 12GB (RTX 4070, RTX 3060 12GB) | 14B クラスが快適 |
| 16GB (RTX 4060 Ti 16GB) | qwen3.6:27b が動くライン |
| 24GB (RTX 3090 / 4090) | qwen3.6:35b が快適、本気の最新フラッグシップ |
| 80GB+ (A100 / H100) | Qwen3-235B MoE などフロンティアクラス |
VRAM が足りない分を RAM に逃がす CPU offload も Ollama は自動でやってくれますが、速度は 1〜3 tokens/sec まで落ちます。実用というよりは「動くかどうか試す」用途です。
実測ベンチマーク:VRAM 6GB で Qwen 系を比較
実際にどれくらい速度差が出るのか、各モデルに同じプロンプト 5 種類(短文日本語、長文日本語、コーディング、推論、翻訳)を投げて生成速度を計測しました。
計測条件
- 各プロンプト 3 回実行(ウォームアップ 1 回を除いて平均)
- メトリクスは Ollama API が返す
eval_count / eval_durationから算出 - 量子化は Ollama デフォルト (Q4_K_M)
- 計測は Python スクリプトで自動化(
ollamaパッケージを使用)
結果:生成速度 (tokens/sec)
| Model | 短文・日本語 | 長文・日本語 | コーディング | 推論 | 翻訳・英語 | 平均 |
|---|---|---|---|---|---|---|
qwen3:0.6b |
142.4 | 130.6 | 135.0 | 142.5 | 140.2 | 138.1 |
qwen2.5:1.5b |
111.4 | 109.7 | 115.4 | 111.4 | 113.2 | 112.3 |
qwen3:1.7b |
108.6 | 103.0 | 103.5 | 105.1 | 105.6 | 105.2 |
qwen2.5:3b |
75.1 | 73.7 | 75.5 | 74.7 | 77.1 | 75.2 |
qwen3:4b |
58.7 | 58.2 | 58.0 | 58.3 | 59.3 | 58.5 |
qwen2.5:7b |
9.5 | 9.3 | 9.3 | 9.4 | 10.4 | 9.6 |
考察
1. qwen2.5:7b は劇的に遅い (9.6 tok/s)
4.7GB の Q4 モデルですが、KV キャッシュを含めると VRAM 6GB に収まりきらず、CPU offload が発生していると考えられます。他モデルの 1/10 以下の速度で、実用は厳しい水準。VRAM 6GB で完全 GPU 推論の上限は実質 4B クラスまでと判断できます。
2. qwen3:4b が「最新世代 × 実用速度」のスイートスポット
58.5 tok/s は人間が読む速度を十分超えており、対話用途で全くストレスを感じません。完全に VRAM に収まる最大サイズで、Qwen3 世代の品質も得られる。汎用用途で迷ったらこれ一択。
3. 小型モデルは想像以上に速い
qwen3:0.6b の 138 tok/s は、軽い分類・抽出・前処理タスクには過剰なほどの速度です。バッチ処理や RAG の前段、Slack bot のような「速さ最優先」用途では十分実用的。
4. 速度はサイズが支配的、世代差は小さい
-
qwen3:4b(58.5) vsqwen2.5:3b(75.2) → 1B のサイズ差で約 17 tok/s 違う -
qwen3:1.7b(105) vsqwen2.5:1.5b(112) → 同サイズ帯では世代差ほぼ無視できる
速度を稼ぎたいならまずはサイズを下げるのが効きます。世代を新しくしても劇的には速くなりません(品質は別)。
用途別おすすめ
| 用途 | モデル | 速度 |
|---|---|---|
| 対話・汎用(メイン使い) | qwen3:4b |
58 tok/s |
| 軽量タスク自動化 | qwen3:1.7b |
105 tok/s |
| 超軽量分類・抽出 | qwen3:0.6b |
138 tok/s |
まとめ
GTX 1660 SUPER (VRAM 6GB) + WSL2 でローカル LLM を動かす際のポイント:
- NVIDIA ドライバを最新に(Driver 525 以上、できれば最新版)
-
WSL2 を使う。古い WSL1 ディストロがあるとデフォルト挙動でハマるので
wsl -l -vでバージョン確認 - WSL 側に CUDA Toolkit を入れる必要はない。Windows ドライバが自動で提供
- zstd を事前にインストールしてから Ollama を入れる
-
実用のメインモデルは
qwen3:4b(58 tok/s)。7B は CPU offload で激遅になるので非推奨
実測してみると、VRAM 6GB の現実的な天井は 4B クラス、しかし 4B でも最新世代 Qwen3 が動くため、入門・実験用途としては十分にローカル LLM の世界を体験できます。「最新フラッグシップを快適に」を求めるなら 16〜24GB クラスの GPU が必要ですが、まずは手元のマシンで始めて、用途と限界を肌で掴むのがおすすめです。