アニメQA生成に最適なローカルLLMはどれか――Qwen3.5 / Nemotron / gpt-oss / Gemma 3 / Gemma 4 を実測比較(DGX Spark / RTX 4080)

Posted at 2026-04-04

はじめに

アニオタLLMを作りたい。
ファインチューニングを行うために、アニメに関するWiKi記事から大量のQA形式の学習データを作成しようとしている。
ローカルLLMを使って大量のQAを作るんだけど、生成速度がすごく求められる。しかも一定の品質の担保も必要。
大量のQAを作成するために、どのモデルが最適なのか。どんなマシンスペックが求められるのか。
今回は、主要なオープンモデルとして、Qwen3.5、Nemotron nano、gpt-oss、Gemma 3、さらに昨日発表されたばかりのGemma 4を使って、実際にQA作成し、主に生成速度を比較してみる。マシンとしては、メモリ容量128GBとすごく大きいDGX Sparkと、GPUメモリは16GBと少ないけど高性能なRTX4080マシンの2つで比較する。

環境

マシン環境：２つ

DGX Spark
- CPU: NVIDIA GB10
- メモリ: 128GB unified memory
- OS: Ubuntu 24.04 系

RTX4080 搭載PC
- CPU: Ryzen 5 3700X
- メモリ: 64GB
- GPU: GeForce RTX 4080
- GPUメモリ: 16GB
- OS: Windows + WSL2 (Ubuntu)

実行環境

llama.cpp の llama-server を用い、OpenAI互換API経由で同一のQA生成スクリプト build_qa_simple.py を実行。
laama-server：version: 8562 (c46758d28)
build_qa_simple.pyは、アニメ関連のWiKi記事から抽出して作成したjsonl（事前に用意済み）から、1件取り出して複数のQAを作る、というのを20件分繰り返すもの。

例：jsonlの抜粋：1件分

{"text": "# うる星やつら / 本文\n『うる星やつら』（うるせいやつら、ラテン文字表記: Urusei Yatsura）は、高橋留美子による日本の漫画。『週刊少年サンデー』（小学館）において、1978年39号から1987年8号まで連載された。略称は「うる星」。第26回（1980年度）小学館漫画賞少年少女部門受賞作。2020年11月時点で累計発行部数は3500万部を突破している。\n\n浮気者の高校生・諸星あたると、彼を愛する一途な宇宙人美少女・ラムを中心に架空の町、友引町や宇宙や異次元などを舞台にしたドタバタラブコメディ。\n\nその内容の斬新さと魅力的なキャラクターは1980年代のみならず以降の漫画界とアニメ界に衝撃を与え、当時の若者たちの圧倒的支持を受けて一大ブームを引き起こし、若者文化にも影響を与えた。\n\n高橋留美子の初期代表作であり、後年、本作と『めぞん一刻』について、（作者自身の）「20代の漫画で自分の青春」と語っている。"}

例：上記から作成したQAセット

{"messages": [{"role": "user", "content": "『うる星やつら』は誰によって描かれた漫画作品ですか？"}, {"role": "assistant", "content": "『うる星やつら』は、高橋留美子さんによる日本の漫画作品です。"}]}
{"messages": [{"role": "user", "content": "『うる星やつら』が『週刊少年サンデー』で連載された期間はいつからいつまでですか？"}, {"role": "assistant", "content": "『うる星やつら』は、小学館の『週刊少年サンデー』において、1978年39号から1987年8号まで連載されました。"}]}
{"messages": [{"role": "user", "content": "『うる星やつら』が受賞した賞と、その受賞した年度はいつですか？"}, {"role": "assistant", "content": "『うる星やつら』は、第26回（1980年度）の小学館漫画賞少年少女部門を受賞しています。"}]}

実行結果

比較表

20件処理する時間[分]、1分あたりのQAの処理速度。
GGUFサイズも併記した。
Qwen 3.5は速度が速く、QA品質も安定していた。
Nemotron nanoは速いんだけど、日本語でのプロンプト追従性がイマイチなのか、QAの品質はイマイチだった。
gpt-ossは20Bを使ったけど、QAの品質は比較的よろしくなかった。表には掲載していないけど120Bなら品質は十分良かったが、速度は全然遅かった。
gemma 3は中庸な性能だったけど、gemma 4はすごく性能が高まった。速いし品質も十分。

モデル	GGUFサイズ(GB)	DGX Spark (20件処理時間[分])	RTX4080+WSL (20件処理時間[分])	DGX Spark (1分あたりQA数)	RTX4080+WSL (1分あたりQA数)	備考
Qwen3.5-9B-Q8_0	9.55	7.55	3.23	16.16	37.77
Qwen3.5-9B-Q5_K_M	6.86	6.34	3.29	19.24	37.04
Qwen3.5-9B-Q4_K_M	5.89	5.26	2.70	22.99	44.87
NVIDIA-Nemotron-3-Nano-4B-UD-Q4_K_XL	3.13	2.43	1.30	46.44	86.70	最速級だが低品質
NVIDIA-Nemotron-Nano-9B-v2-bartowski-Q5_K_M	7.07	10.58	5.27	10.21	22.57	低品質
gpt-oss-20b-UD-Q4_K_XL	11.90	5.62	6.49	9.44	9.55	低品質
gemma-3-12b-it-Q4_K_M	7.30	7.40	3.75	16.22	32.03
gemma-4-E4B-it-Q4_K_M	4.95	3.63	2.12	33.06	56.07	非常に高速
gemma-4-26B-A4B-it-Q4_K_M	15.60	2.92	4.79	34.63	16.50	DGXで高速
gemma-4-31B-it-Q4_K_M	17.40	17.46	-	6.87	-	RTXはVRAM容量を超えるので未実施

QA生成速度比較グラフ

右に行くほど速い。
ベタ塗りがDGX spark、斜線がRTX 4080を示す。
Nemotronが速度面では飛び出しているけど、品質面で不合格。
gemma 4 EB4をRTX4080で回すのが現実的には最も良さそう。
DGX Sparkでのgemma 4 26Bが妙に速いのが不思議。GGUFサイズがgemma 4 26Bよりも大きいんだから、それよりも遅くなると思うんだけど。もう少し再実験が必要かもしれない。

20チャンク処理時間比較グラフ

左に行くほど速い。

まとめ

モデルについて
- 公開されたばかりのgemma 4がすごく良い。それなりのQA品質を保ちつつ、生成速度がかなり速い。
- Qwen 3.5は従前は最も良かった。しかしアニオタQA作成業務においては、gemma 4に追い抜かれたと思う。
- NemotronはQA品質で少し劣っている。日本語に特化したモデルを使うべきかもしれない。
- gpt-ossは生成速度が遅いなあ。
マシンについて
- GGUFサイズが小さくてRTX 4080のメモリ16GBに十分収まるような場合には、RTX 4080の方がDGX Sparkよりも2倍ぐらい速い。
- しかし、RTX 4080のメモリ16GBを超えるぐらいのサイズになると、RTX 4080は途端に遅くなってしまって、DGX Sparkの方が有利になる。
- ただ、GGUFサイズが大きくなると、絶対的な速度が下がる傾向にあるので、今回の用途であるQA作成においてはRTX 4080を使うのが良いだろう。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up