古いGPU付PCでローカルLLMを試したみた話とその時の実施メモ

Posted at 2026-05-11

「手元の Windows PC でローカル LLM を試したい」と思って WSL2 + Ollama 環境を構築した記録です。途中で何度かハマりポイントがあったので、同じ構成の人が詰まらないように手順とつまずきも含めて残しておきます。

経緯

最近はMacを使用しているためWindowsPCが化石のように起動していませんでした
ローカルLLMにはハマっており、CUDA環境をサクッと試したかった
初めてのCUDA＋LLM＋Windowsなので備忘録もかけて残しておく

環境

項目	スペック
CPU	Intel Core i7-10700K @ 3.80GHz (8C/16T)
RAM	32GB DDR4 (2667 MT/s)
GPU	NVIDIA GeForce GTX 1660 SUPER (VRAM 6GB)
ストレージ	943GB SSD（空き約 700GB）
OS	Windows 11 Pro 25H2 (Build 26200.8328)

VRAM 6GB は最新フラッグシップモデルには足りませんが、4B〜7B クラスの量子化モデルなら快適に動かせる構成です。

ステップ 1: Windows バージョンの確認

WSL2 + CUDA を使うには Windows 11、または Windows 10 21H2 以降が必須です。

Win + R → winver

または「設定 → システム → バージョン情報」から「Windows の仕様」を確認します。

ステップ 2: NVIDIA ドライバの更新

これが最初の落とし穴でした。

nvidia-smi を PowerShell で実行してドライバを確認します。

nvidia-smi

私の場合、初期状態では Driver 457.51 / CUDA 11.1（2020 年 11 月リリース）という骨董品クラスでした。これでは WSL2 から GPU は見えません。

WSL2 + CUDA に必要なドライバ要件:

最低: Driver 470 以上（NVIDIA が WSL2 GPU サポートを正式に始めたバージョン）
推奨: Driver 525 以上（CUDA 12.x 対応）
ベスト: 最新版（CUDA 13.x 対応、Ollama や llama.cpp の最新ビルドが快適）

NVIDIA 公式サイトから最新ドライバを取得します。

NVIDIA ドライバダウンロード

製品の種類: GeForce
製品シリーズ: GeForce 16 Series
製品: GeForce GTX 1660 SUPER
OS: Windows 11
ダウンロードタイプ: Studio Driver (SD) または Game Ready Driver (GRD)

インストール時は「カスタム」→「クリーンインストール」にチェックを入れると古いドライバの残骸が消えてキレイです。

インストール後は PC を再起動。再度 nvidia-smi で確認:

NVIDIA-SMI 596.36   Driver Version: 596.36   CUDA Version: 13.2

これで CUDA 13.2 まで上がりました。

ステップ 3: WSL2 のインストール

管理者権限の PowerShell で:

wsl --install -d Ubuntu-24.04

これ一発で WSL2 カーネル、仮想化機能、Ubuntu 24.04 が全部入ります。インストール後に再起動を求められたら再起動。

再起動後に自動で Ubuntu のセットアップ画面が開くので、UNIX ユーザー名とパスワードを設定します。

つまずきポイント: 古い WSL1 ディストロがあると邪魔をする

ここで罠にハマりました。wsl とだけ打ってターミナルに入って nvidia-smi を実行すると:

NVIDIA-SMI couldn't find libnvidia-ml.so library in your system.

ドライバは最新にしたのに動かない。原因を調べるため wsl -l -v を実行:

  NAME              STATE           VERSION
* Ubuntu-20.04      Running         1
  Ubuntu-24.04      Stopped         2
  docker-desktop    Running         2

過去にインストールした Ubuntu-20.04 が WSL1 のままデフォルトになっていました。wsl コマンドはデフォルトのディストロを起動するので、私は気づかないうちに WSL1 環境で nvidia-smi を叩いていたわけです。

WSL1 は CUDA に非対応なので、ここでは絶対に GPU が見えません。

修正手順:

# Ubuntu-24.04 をデフォルトに変更
wsl --set-default Ubuntu-24.04

# 全 WSL を一旦シャットダウン
wsl --shutdown

# 確認（* が Ubuntu-24.04 についていれば OK）
wsl -l -v

ステップ 4: WSL から GPU が見えるか確認

WSL2 の Ubuntu を起動して:

nvidia-smi

+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 595.71.01              Driver Version: 596.36         CUDA Version: 13.2     |
+-----------------------------------------+------------------------+----------------------+
|   0  NVIDIA GeForce GTX 1660 ...    On  |   00000000:01:00.0  On |                  N/A |
| 35%   41C    P5             24W /  125W |    1744MiB /   6144MiB |      0%      Default |
+-----------------------------------------+------------------------+----------------------+

GTX 1660 SUPER が認識されました。WSL 側に CUDA Toolkit をインストールする必要はありません。Windows のドライバが /usr/lib/wsl/lib/libnvidia-ml.so を自動マウントしてくれる仕組みです。

ステップ 5: Ollama のインストール

WSL の Ubuntu で公式インストーラを実行:

curl -fsSL https://ollama.com/install.sh | sh

つまずきポイント: zstd が必要

最近の Ollama インストーラは zstd を要求します。

ERROR: This version requires zstd for extraction. Please install zstd and try again:
  - Debian/Ubuntu: sudo apt-get install zstd

事前に入れておきましょう:

sudo apt update
sudo apt install -y zstd
curl -fsSL https://ollama.com/install.sh | sh

インストール中に「NVIDIA GPU detected」のログが出れば GPU 対応版が入っています。systemd サービスとして自動起動するので、追加コマンドは不要です。

モデルの選び方：VRAM 6GB で何が動くか

ローカル LLM の VRAM 必要量はざっくり次の式で見積もれます。

量子化	必要 VRAM の目安	品質
Q4 (Q4_K_M)	パラメータ数 × 0.6GB	軽い、実用十分
Q5	パラメータ数 × 0.75GB	バランス型
Q8	パラメータ数 × 1.0GB	ほぼ無損失
FP16	パラメータ数 × 2.0GB	フル精度

これに KV キャッシュで +1〜3GB が必要です。Ollama のデフォルト量子化は Q4_K_M。

VRAM 6GB で動く Qwen 系の選択肢

モデル	サイズ	特徴
`qwen3:4b`	約 2.5GB	Qwen3 世代の小型版。Qwen2.5-72B に匹敵する性能を主張
`qwen3:1.7b`	約 1.4GB	さらに軽量、サクサク
`qwen2.5:7b`	約 4.7GB	前世代だが安定、日本語こなれている
`qwen2.5:3b`	約 2GB	軽量、入門向け
`qwen2.5-coder:7b`	約 4.7GB	コーディング特化

最初に試すなら qwen3:4b がバランス◎。

ollama run qwen3:4b

初回はモデルダウンロード（数分）後、>>> プロンプトが出るので適当に話しかけると応答します。終了は /bye。

「最新フラッグシップ」を動かしたい場合の VRAM 目安

ちなみに 2026 年時点の Qwen 最新世代 (Qwen3.6) を動かそうとすると、こんな VRAM が必要です。

VRAM	動かせるレベル
6GB (GTX 1660 SUPER)	4B クラスまで、7B Q4 がギリギリ
8GB (RTX 4060)	8B Q4 が快適
12GB (RTX 4070, RTX 3060 12GB)	14B クラスが快適
16GB (RTX 4060 Ti 16GB)	qwen3.6:27b が動くライン
24GB (RTX 3090 / 4090)	qwen3.6:35b が快適、本気の最新フラッグシップ
80GB+ (A100 / H100)	Qwen3-235B MoE などフロンティアクラス

VRAM が足りない分を RAM に逃がす CPU offload も Ollama は自動でやってくれますが、速度は 1〜3 tokens/sec まで落ちます。実用というよりは「動くかどうか試す」用途です。

実測ベンチマーク：VRAM 6GB で Qwen 系を比較

実際にどれくらい速度差が出るのか、各モデルに同じプロンプト 5 種類（短文日本語、長文日本語、コーディング、推論、翻訳）を投げて生成速度を計測しました。

計測条件

各プロンプト 3 回実行（ウォームアップ 1 回を除いて平均）
メトリクスは Ollama API が返す eval_count / eval_duration から算出
量子化は Ollama デフォルト (Q4_K_M)
計測は Python スクリプトで自動化（ollama パッケージを使用）

結果：生成速度 (tokens/sec)

Model	短文・日本語	長文・日本語	コーディング	推論	翻訳・英語	平均
`qwen3:0.6b`	142.4	130.6	135.0	142.5	140.2	138.1
`qwen2.5:1.5b`	111.4	109.7	115.4	111.4	113.2	112.3
`qwen3:1.7b`	108.6	103.0	103.5	105.1	105.6	105.2
`qwen2.5:3b`	75.1	73.7	75.5	74.7	77.1	75.2
`qwen3:4b`	58.7	58.2	58.0	58.3	59.3	58.5
`qwen2.5:7b`	9.5	9.3	9.3	9.4	10.4	9.6

考察

1. qwen2.5:7b は劇的に遅い (9.6 tok/s)

4.7GB の Q4 モデルですが、KV キャッシュを含めると VRAM 6GB に収まりきらず、CPU offload が発生していると考えられます。他モデルの 1/10 以下の速度で、実用は厳しい水準。VRAM 6GB で完全 GPU 推論の上限は実質 4B クラスまでと判断できます。

2. qwen3:4b が「最新世代 × 実用速度」のスイートスポット

58.5 tok/s は人間が読む速度を十分超えており、対話用途で全くストレスを感じません。完全に VRAM に収まる最大サイズで、Qwen3 世代の品質も得られる。汎用用途で迷ったらこれ一択。

3. 小型モデルは想像以上に速い

qwen3:0.6b の 138 tok/s は、軽い分類・抽出・前処理タスクには過剰なほどの速度です。バッチ処理や RAG の前段、Slack bot のような「速さ最優先」用途では十分実用的。

4. 速度はサイズが支配的、世代差は小さい

qwen3:4b (58.5) vs qwen2.5:3b (75.2) → 1B のサイズ差で約 17 tok/s 違う
qwen3:1.7b (105) vs qwen2.5:1.5b (112) → 同サイズ帯では世代差ほぼ無視できる

速度を稼ぎたいならまずはサイズを下げるのが効きます。世代を新しくしても劇的には速くなりません（品質は別）。

用途別おすすめ

用途	モデル	速度
対話・汎用（メイン使い）	`qwen3:4b`	58 tok/s
軽量タスク自動化	`qwen3:1.7b`	105 tok/s
超軽量分類・抽出	`qwen3:0.6b`	138 tok/s

まとめ

GTX 1660 SUPER (VRAM 6GB) + WSL2 でローカル LLM を動かす際のポイント:

NVIDIA ドライバを最新に（Driver 525 以上、できれば最新版）
WSL2 を使う。古い WSL1 ディストロがあるとデフォルト挙動でハマるので wsl -l -v でバージョン確認
WSL 側に CUDA Toolkit を入れる必要はない。Windows ドライバが自動で提供
zstd を事前にインストールしてから Ollama を入れる
実用のメインモデルは qwen3:4b（58 tok/s）。7B は CPU offload で激遅になるので非推奨

実測してみると、VRAM 6GB の現実的な天井は 4B クラス、しかし 4B でも最新世代 Qwen3 が動くため、入門・実験用途としては十分にローカル LLM の世界を体験できます。「最新フラッグシップを快適に」を求めるなら 16〜24GB クラスの GPU が必要ですが、まずは手元のマシンで始めて、用途と限界を肌で掴むのがおすすめです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up