【ローカルLLM】RTX3060とRTX5060tiの性能比較

Posted at 2025-05-21

はじめに

これまでローカルLLMにはRTX3060を使用していましたが、RTX5060tiを購入したので、RTX3060とRTX5060tiの性能の比較をしてみました。

測定環境

測定環境は以下の通りです。

パラメータ	設定内容
OS	Ubuntu 22.04 (WSL2)
CPU	Ryzen 5 7600
メモリ	DDR5-5600 64GB
マザーボード	MSI MAG B650 TOMAHAWK WIFI
GPU1	ZOTAC GAMING GeForce RTX 5060 Ti 16GB Twin Edge
GPU2	MSI GeForce RTX 3060 VENTUS 2X 12G OC
GPUドライババージョン	576.52

1台のPCにGPUを2つ搭載していますが、測定時は1台ずつしか使わないように設定して測定を行います。

$ nvidia-smi
Wed May 21 18:00:55 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 575.57.04              Driver Version: 576.52         CUDA Version: 12.9     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 5060 Ti     On  |   00000000:01:00.0  On |                  N/A |
|  0%   37C    P8              9W /  180W |   11655MiB /  16311MiB |      2%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA GeForce RTX 3060        On  |   00000000:06:00.0 Off |                  N/A |
|  0%   41C    P8             14W /  170W |    9891MiB /  12288MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

測定方法

OllamaのDocker版を使って測定します。使用するGPUを切り替えるために環境変数docker-compose.yamlにCUDA_VISIBLE_DEVICESを指定しました。

version: '3.8'

services:
  ollama:
    image: ollama/ollama:0.7.0
    container_name: ollama
    volumes:
      - ollama:/root/.ollama
    ports:
      - "11434:11434"
    environment:
       CUDA_VISIBLE_DEVICES: "0" # Ollamaで使用するGPUを制限。0はRTX5060ti, 1はRTX3060
    deploy:
      resources:
        reservations:
          devices:
            - capabilities: [gpu]

また、verboseオプションを指定することで、トークン生成速度等の各種性能値を取得することができます。今回はトークン生成速度(eval rate)のみを記録しました。

ollama run qwen3:8b-q4_K_M --verbose

>>> 一般人が明日の天気を推測する方法を教えて。
<think>
Okay, the user is asking how the average person can predict the weather for tomorrow. Let me start by breaking
down the different methods people commonly 
(略)

total duration:       32.895135936s
load duration:        10.344899ms
prompt eval count:    22 token(s)
prompt eval duration: 376.840997ms
prompt eval rate:     58.38 tokens/s
eval count:           1713 token(s)
eval duration:        32.507197906s
eval rate:            52.70 tokens/s

測定結果

私が普段使いしているモデルについて測定しました。
結果を見てわかるようにRTX5060tiはRTX3060よりも圧倒的に高速で、全てのLLMにおいて、RTX5060tiはRTX3060と比較して非常に高いトークン生成速度となりました。
これまでRTX3060では12Bや14Bのモデルは動作するものの、トークン生成速度が遅くかなりストレスを感じていましたが、RTX5060tiでは十分に実用に耐えうる速度がでることが確認できました。

モデル名	RTX5060tiのトークン生成速度 (tokens per second)	RTX3060のトークン生成速度 (tokens per second)
gemma3:12b-it-q4_K_M	40.50	12.69
qwen3:8b-q4_K_M	61.11	49.14
qwen3:8b-q8_0	41.04	12.96
qwen3:14b-q4_K_M	37.10	7.51

おまけ(マルチGPUでの検証)

せっかくマルチGPU環境にしたので、1台のGPUのVRAMには乗り切らないサイズのモデルについても動作させてみました。結果は以下の通り。
gemma3:27b-itは少し遅いですが、MoEモデルであるqwen3:30b-a3bは、アクティブパラメータが少ないためか、そこそこの速度が出ており、体感的には十分実用範囲内でした。

モデル名	RTX5060ti+RTX3060	VRAM使用量
gemma3:27b-it-q4_K_M	17.21 tokens per second	約21GB
qwen3:30b-a3b-q4_K_M	27.09 tokens per second	約21GB

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up