はじめに
これまでローカルLLMにはRTX3060を使用していましたが、RTX5060tiを購入したので、RTX3060とRTX5060tiの性能の比較をしてみました。
測定環境
測定環境は以下の通りです。
パラメータ | 設定内容 |
---|---|
OS | Ubuntu 22.04 (WSL2) |
CPU | Ryzen 5 7600 |
メモリ | DDR5-5600 64GB |
マザーボード | MSI MAG B650 TOMAHAWK WIFI |
GPU1 | ZOTAC GAMING GeForce RTX 5060 Ti 16GB Twin Edge |
GPU2 | MSI GeForce RTX 3060 VENTUS 2X 12G OC |
GPUドライババージョン | 576.52 |
1台のPCにGPUを2つ搭載していますが、測定時は1台ずつしか使わないように設定して測定を行います。
$ nvidia-smi
Wed May 21 18:00:55 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 575.57.04 Driver Version: 576.52 CUDA Version: 12.9 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 5060 Ti On | 00000000:01:00.0 On | N/A |
| 0% 37C P8 9W / 180W | 11655MiB / 16311MiB | 2% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 1 NVIDIA GeForce RTX 3060 On | 00000000:06:00.0 Off | N/A |
| 0% 41C P8 14W / 170W | 9891MiB / 12288MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
測定方法
OllamaのDocker版を使って測定します。使用するGPUを切り替えるために環境変数docker-compose.yamlにCUDA_VISIBLE_DEVICESを指定しました。
version: '3.8'
services:
ollama:
image: ollama/ollama:0.7.0
container_name: ollama
volumes:
- ollama:/root/.ollama
ports:
- "11434:11434"
environment:
CUDA_VISIBLE_DEVICES: "0" # Ollamaで使用するGPUを制限。0はRTX5060ti, 1はRTX3060
deploy:
resources:
reservations:
devices:
- capabilities: [gpu]
また、verboseオプションを指定することで、トークン生成速度等の各種性能値を取得することができます。今回はトークン生成速度(eval rate)のみを記録しました。
ollama run qwen3:8b-q4_K_M --verbose
>>> 一般人が明日の天気を推測する方法を教えて。
<think>
Okay, the user is asking how the average person can predict the weather for tomorrow. Let me start by breaking
down the different methods people commonly
(略)
total duration: 32.895135936s
load duration: 10.344899ms
prompt eval count: 22 token(s)
prompt eval duration: 376.840997ms
prompt eval rate: 58.38 tokens/s
eval count: 1713 token(s)
eval duration: 32.507197906s
eval rate: 52.70 tokens/s
測定結果
私が普段使いしているモデルについて測定しました。
結果を見てわかるようにRTX5060tiはRTX3060よりも圧倒的に高速で、全てのLLMにおいて、RTX5060tiはRTX3060と比較して非常に高いトークン生成速度となりました。
これまでRTX3060では12Bや14Bのモデルは動作するものの、トークン生成速度が遅くかなりストレスを感じていましたが、RTX5060tiでは十分に実用に耐えうる速度がでることが確認できました。
モデル名 | RTX5060tiのトークン生成速度 (tokens per second) | RTX3060のトークン生成速度 (tokens per second) |
---|---|---|
gemma3:12b-it-q4_K_M | 40.50 | 12.69 |
qwen3:8b-q4_K_M | 61.11 | 49.14 |
qwen3:8b-q8_0 | 41.04 | 12.96 |
qwen3:14b-q4_K_M | 37.10 | 7.51 |
おまけ(マルチGPUでの検証)
せっかくマルチGPU環境にしたので、1台のGPUのVRAMには乗り切らないサイズのモデルについても動作させてみました。結果は以下の通り。
gemma3:27b-itは少し遅いですが、MoEモデルであるqwen3:30b-a3bは、アクティブパラメータが少ないためか、そこそこの速度が出ており、体感的には十分実用範囲内でした。
モデル名 | RTX5060ti+RTX3060 | VRAM使用量 |
---|---|---|
gemma3:27b-it-q4_K_M | 17.21 tokens per second | 約21GB |
qwen3:30b-a3b-q4_K_M | 27.09 tokens per second | 約21GB |