はじめに
- アニオタLLMを作りたい。
- ファインチューニングを行うために、アニメに関するWiKi記事から大量のQA形式の学習データを作成しようとしている。
- ローカルLLMを使って大量のQAを作るんだけど、生成速度がすごく求められる。しかも一定の品質の担保も必要。
- 大量のQAを作成するために、どのモデルが最適なのか。どんなマシンスペックが求められるのか。
- 今回は、主要なオープンモデルとして、
Qwen3.5、Nemotron nano、gpt-oss、Gemma 3、さらに昨日発表されたばかりのGemma 4を使って、実際にQA作成し、主に生成速度を比較してみる。マシンとしては、メモリ容量128GBとすごく大きいDGX Sparkと、GPUメモリは16GBと少ないけど高性能なRTX4080マシンの2つで比較する。
環境
マシン環境:2つ
-
DGX Spark
- CPU: NVIDIA GB10
- メモリ: 128GB unified memory
- OS: Ubuntu 24.04 系
-
RTX4080 搭載PC
- CPU: Ryzen 5 3700X
- メモリ: 64GB
- GPU: GeForce RTX 4080
- GPUメモリ: 16GB
- OS: Windows + WSL2 (Ubuntu)
実行環境
-
llama.cppのllama-serverを用い、OpenAI互換API経由で同一のQA生成スクリプトbuild_qa_simple.pyを実行。 - laama-server:version: 8562 (c46758d28)
-
build_qa_simple.pyは、アニメ関連のWiKi記事から抽出して作成したjsonl(事前に用意済み)から、1件取り出して複数のQAを作る、というのを20件分繰り返すもの。
例:jsonlの抜粋:1件分
{"text": "# うる星やつら / 本文\n『うる星やつら』(うるせいやつら、ラテン文字表記: Urusei Yatsura)は、高橋留美子による日本の漫画。『週刊少年サンデー』(小学館)において、1978年39号から1987年8号まで連載された。略称は「うる星」。第26回(1980年度)小学館漫画賞少年少女部門受賞作。2020年11月時点で累計発行部数は3500万部を突破している。\n\n浮気者の高校生・諸星あたると、彼を愛する一途な宇宙人美少女・ラムを中心に架空の町、友引町や宇宙や異次元などを舞台にしたドタバタラブコメディ。\n\nその内容の斬新さと魅力的なキャラクターは1980年代のみならず以降の漫画界とアニメ界に衝撃を与え、当時の若者たちの圧倒的支持を受けて一大ブームを引き起こし、若者文化にも影響を与えた。\n\n高橋留美子の初期代表作であり、後年、本作と『めぞん一刻』について、(作者自身の)「20代の漫画で自分の青春」と語っている。"}
例:上記から作成したQAセット
{"messages": [{"role": "user", "content": "『うる星やつら』は誰によって描かれた漫画作品ですか?"}, {"role": "assistant", "content": "『うる星やつら』は、高橋留美子さんによる日本の漫画作品です。"}]}
{"messages": [{"role": "user", "content": "『うる星やつら』が『週刊少年サンデー』で連載された期間はいつからいつまでですか?"}, {"role": "assistant", "content": "『うる星やつら』は、小学館の『週刊少年サンデー』において、1978年39号から1987年8号まで連載されました。"}]}
{"messages": [{"role": "user", "content": "『うる星やつら』が受賞した賞と、その受賞した年度はいつですか?"}, {"role": "assistant", "content": "『うる星やつら』は、第26回(1980年度)の小学館漫画賞少年少女部門を受賞しています。"}]}
実行結果
比較表
20件処理する時間[分]、1分あたりのQAの処理速度。
GGUFサイズも併記した。
Qwen 3.5は速度が速く、QA品質も安定していた。
Nemotron nanoは速いんだけど、日本語でのプロンプト追従性がイマイチなのか、QAの品質はイマイチだった。
gpt-ossは20Bを使ったけど、QAの品質は比較的よろしくなかった。表には掲載していないけど120Bなら品質は十分良かったが、速度は全然遅かった。
gemma 3は中庸な性能だったけど、gemma 4はすごく性能が高まった。速いし品質も十分。
| モデル | GGUFサイズ(GB) | DGX Spark (20件処理時間[分]) | RTX4080+WSL (20件処理時間[分]) | DGX Spark (1分あたりQA数) | RTX4080+WSL (1分あたりQA数) | 備考 |
|---|---|---|---|---|---|---|
| Qwen3.5-9B-Q8_0 | 9.55 | 7.55 | 3.23 | 16.16 | 37.77 | |
| Qwen3.5-9B-Q5_K_M | 6.86 | 6.34 | 3.29 | 19.24 | 37.04 | |
| Qwen3.5-9B-Q4_K_M | 5.89 | 5.26 | 2.70 | 22.99 | 44.87 | |
| NVIDIA-Nemotron-3-Nano-4B-UD-Q4_K_XL | 3.13 | 2.43 | 1.30 | 46.44 | 86.70 | 最速級だが低品質 |
| NVIDIA-Nemotron-Nano-9B-v2-bartowski-Q5_K_M | 7.07 | 10.58 | 5.27 | 10.21 | 22.57 | 低品質 |
| gpt-oss-20b-UD-Q4_K_XL | 11.90 | 5.62 | 6.49 | 9.44 | 9.55 | 低品質 |
| gemma-3-12b-it-Q4_K_M | 7.30 | 7.40 | 3.75 | 16.22 | 32.03 | |
| gemma-4-E4B-it-Q4_K_M | 4.95 | 3.63 | 2.12 | 33.06 | 56.07 | 非常に高速 |
| gemma-4-26B-A4B-it-Q4_K_M | 15.60 | 2.92 | 4.79 | 34.63 | 16.50 | DGXで高速 |
| gemma-4-31B-it-Q4_K_M | 17.40 | 17.46 | - | 6.87 | - | RTXはVRAM容量を超えるので未実施 |
QA生成速度比較グラフ
右に行くほど速い。
ベタ塗りがDGX spark、斜線がRTX 4080を示す。
Nemotronが速度面では飛び出しているけど、品質面で不合格。
gemma 4 EB4をRTX4080で回すのが現実的には最も良さそう。
DGX Sparkでのgemma 4 26Bが妙に速いのが不思議。GGUFサイズがgemma 4 26Bよりも大きいんだから、それよりも遅くなると思うんだけど。もう少し再実験が必要かもしれない。

20チャンク処理時間比較グラフ
まとめ
- モデルについて
- 公開されたばかりの
gemma 4がすごく良い。それなりのQA品質を保ちつつ、生成速度がかなり速い。 -
Qwen 3.5は従前は最も良かった。しかしアニオタQA作成業務においては、gemma 4に追い抜かれたと思う。 -
NemotronはQA品質で少し劣っている。日本語に特化したモデルを使うべきかもしれない。 -
gpt-ossは生成速度が遅いなあ。
- 公開されたばかりの
- マシンについて
- GGUFサイズが小さくてRTX 4080のメモリ16GBに十分収まるような場合には、RTX 4080の方がDGX Sparkよりも2倍ぐらい速い。
- しかし、RTX 4080のメモリ16GBを超えるぐらいのサイズになると、RTX 4080は途端に遅くなってしまって、DGX Sparkの方が有利になる。
- ただ、GGUFサイズが大きくなると、絶対的な速度が下がる傾向にあるので、今回の用途であるQA作成においてはRTX 4080を使うのが良いだろう。


