0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

アニメQA生成に最適なローカルLLMはどれか――Qwen3.5 / Nemotron / gpt-oss / Gemma 3 / Gemma 4 を実測比較(DGX Spark / RTX 4080)

0
Posted at

はじめに

  • アニオタLLMを作りたい。
  • ファインチューニングを行うために、アニメに関するWiKi記事から大量のQA形式の学習データを作成しようとしている。
  • ローカルLLMを使って大量のQAを作るんだけど、生成速度がすごく求められる。しかも一定の品質の担保も必要。
  • 大量のQAを作成するために、どのモデルが最適なのか。どんなマシンスペックが求められるのか。
  • 今回は、主要なオープンモデルとして、Qwen3.5Nemotron nanogpt-ossGemma 3、さらに昨日発表されたばかりのGemma 4を使って、実際にQA作成し、主に生成速度を比較してみる。マシンとしては、メモリ容量128GBとすごく大きいDGX Sparkと、GPUメモリは16GBと少ないけど高性能なRTX4080マシンの2つで比較する。

環境

マシン環境:2つ

  • DGX Spark
    • CPU: NVIDIA GB10
    • メモリ: 128GB unified memory
    • OS: Ubuntu 24.04 系

IMG_1381.jpeg

  • RTX4080 搭載PC
    • CPU: Ryzen 5 3700X
    • メモリ: 64GB
    • GPU: GeForce RTX 4080
    • GPUメモリ: 16GB
    • OS: Windows + WSL2 (Ubuntu)

IMG_1379.jpg

実行環境

  • llama.cppllama-server を用い、OpenAI互換API経由で同一のQA生成スクリプト build_qa_simple.py を実行。
  • laama-server:version: 8562 (c46758d28)
  • build_qa_simple.pyは、アニメ関連のWiKi記事から抽出して作成したjsonl(事前に用意済み)から、1件取り出して複数のQAを作る、というのを20件分繰り返すもの。

例:jsonlの抜粋:1件分

{"text": "# うる星やつら / 本文\n『うる星やつら』(うるせいやつら、ラテン文字表記: Urusei Yatsura)は、高橋留美子による日本の漫画。『週刊少年サンデー』(小学館)において、1978年39号から1987年8号まで連載された。略称は「うる星」。第26回(1980年度)小学館漫画賞少年少女部門受賞作。2020年11月時点で累計発行部数は3500万部を突破している。\n\n浮気者の高校生・諸星あたると、彼を愛する一途な宇宙人美少女・ラムを中心に架空の町、友引町や宇宙や異次元などを舞台にしたドタバタラブコメディ。\n\nその内容の斬新さと魅力的なキャラクターは1980年代のみならず以降の漫画界とアニメ界に衝撃を与え、当時の若者たちの圧倒的支持を受けて一大ブームを引き起こし、若者文化にも影響を与えた。\n\n高橋留美子の初期代表作であり、後年、本作と『めぞん一刻』について、(作者自身の)「20代の漫画で自分の青春」と語っている。"}

例:上記から作成したQAセット

{"messages": [{"role": "user", "content": "『うる星やつら』は誰によって描かれた漫画作品ですか?"}, {"role": "assistant", "content": "『うる星やつら』は、高橋留美子さんによる日本の漫画作品です。"}]}
{"messages": [{"role": "user", "content": "『うる星やつら』が『週刊少年サンデー』で連載された期間はいつからいつまでですか?"}, {"role": "assistant", "content": "『うる星やつら』は、小学館の『週刊少年サンデー』において、1978年39号から1987年8号まで連載されました。"}]}
{"messages": [{"role": "user", "content": "『うる星やつら』が受賞した賞と、その受賞した年度はいつですか?"}, {"role": "assistant", "content": "『うる星やつら』は、第26回(1980年度)の小学館漫画賞少年少女部門を受賞しています。"}]}

実行結果

比較表

20件処理する時間[分]、1分あたりのQAの処理速度。
GGUFサイズも併記した。
Qwen 3.5は速度が速く、QA品質も安定していた。
Nemotron nanoは速いんだけど、日本語でのプロンプト追従性がイマイチなのか、QAの品質はイマイチだった。
gpt-ossは20Bを使ったけど、QAの品質は比較的よろしくなかった。表には掲載していないけど120Bなら品質は十分良かったが、速度は全然遅かった。
gemma 3は中庸な性能だったけど、gemma 4はすごく性能が高まった。速いし品質も十分。

モデル GGUFサイズ(GB) DGX Spark (20件処理時間[分]) RTX4080+WSL (20件処理時間[分]) DGX Spark (1分あたりQA数) RTX4080+WSL (1分あたりQA数) 備考
Qwen3.5-9B-Q8_0 9.55 7.55 3.23 16.16 37.77
Qwen3.5-9B-Q5_K_M 6.86 6.34 3.29 19.24 37.04
Qwen3.5-9B-Q4_K_M 5.89 5.26 2.70 22.99 44.87
NVIDIA-Nemotron-3-Nano-4B-UD-Q4_K_XL 3.13 2.43 1.30 46.44 86.70 最速級だが低品質
NVIDIA-Nemotron-Nano-9B-v2-bartowski-Q5_K_M 7.07 10.58 5.27 10.21 22.57 低品質
gpt-oss-20b-UD-Q4_K_XL 11.90 5.62 6.49 9.44 9.55 低品質
gemma-3-12b-it-Q4_K_M 7.30 7.40 3.75 16.22 32.03
gemma-4-E4B-it-Q4_K_M 4.95 3.63 2.12 33.06 56.07 非常に高速
gemma-4-26B-A4B-it-Q4_K_M 15.60 2.92 4.79 34.63 16.50 DGXで高速
gemma-4-31B-it-Q4_K_M 17.40 17.46 - 6.87 - RTXはVRAM容量を超えるので未実施

QA生成速度比較グラフ

右に行くほど速い。
ベタ塗りがDGX spark、斜線がRTX 4080を示す。
Nemotronが速度面では飛び出しているけど、品質面で不合格。
gemma 4 EB4をRTX4080で回すのが現実的には最も良さそう。
DGX Sparkでのgemma 4 26Bが妙に速いのが不思議。GGUFサイズがgemma 4 26Bよりも大きいんだから、それよりも遅くなると思うんだけど。もう少し再実験が必要かもしれない。
qiita_qas_per_min_family_order_v2.png

20チャンク処理時間比較グラフ

左に行くほど速い。
qiita_elapsed_20items_family_order_v2.png

まとめ

  • モデルについて
    • 公開されたばかりのgemma 4がすごく良い。それなりのQA品質を保ちつつ、生成速度がかなり速い。
    • Qwen 3.5は従前は最も良かった。しかしアニオタQA作成業務においては、gemma 4に追い抜かれたと思う。
    • NemotronはQA品質で少し劣っている。日本語に特化したモデルを使うべきかもしれない。
    • gpt-ossは生成速度が遅いなあ。
  • マシンについて
    • GGUFサイズが小さくてRTX 4080のメモリ16GBに十分収まるような場合には、RTX 4080の方がDGX Sparkよりも2倍ぐらい速い。
    • しかし、RTX 4080のメモリ16GBを超えるぐらいのサイズになると、RTX 4080は途端に遅くなってしまって、DGX Sparkの方が有利になる。
    • ただ、GGUFサイズが大きくなると、絶対的な速度が下がる傾向にあるので、今回の用途であるQA作成においてはRTX 4080を使うのが良いだろう。
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?