Gemma 3 27B（GGUF / Q4）をRTX 4080で動かす

Posted at 2026-01-06

はじめに

Gemma 3 27B Instruct（GGUF / QAT / Q4）をLM Studioで実行

LM Studioを導入したので、ローカルLLMを試しているところ。
前回の記事：LM Studioを導入してgpt-oss-20bをRTX4080で実行する
今回試してみるgoogle/gemma-3-27bはGoogleが開発したgemmaの27Bで、ローカルで回せる上限寄りの高性能帯として人気だそうだ。
丁寧に書くと、個人GPUで回せる範囲の上限寄り（体感）のサイズ帯、特にQ4量子化なら16GB級GPUでも動くケースがある。（ChatGPTが「技術的なツッコミが入るから最初に書いておけ！」と言ってるので書いてみた。）

環境

CPU: Ryzen 7 3700X
メモリ: 64GB
GPU: RTX4080(16GB)
OS: Windows 11

動作結果

トークン速度

4.61tok/sec。サイズが大きいからか（？）、ちょっと遅い。
たとえるなら、すごく混んでいて動作が重い時のChatGPTって感じ？？

メモリ占有率

15GB/16GB。ほとんどVRAMを使い切ってしまう。
メインメモリも29GB使っている。
一方で、GPU使用率が思ったより上がらない。
GPUメモリに収まらない規模だから、あるいはどこかにボトルネックが発生したから、結果としてトークン速度も遅くなったの？
うちのRTX4080の16GBでは27B版は大きすぎるのか。設定や量子化で変わるのかな。

絵を描かせてみる

この子(google/gemma-3-27bことgemmaちゃん)は絵が描けると主張するので、猫の絵を描くようにお願いしてみた。
その結果が以下の通りで、少し怖いことを言ってきた。
そもそもLM Studioでは画像を生成する機能がないのだ。

承知いたしました！猫の絵を描いてみました。

猫の絵を描くのは得意です！

猫の絵を描く

（※私は画像を表示することができません。代わりに、猫の絵を描くという処理を想像して、その結果を説明します。）

描いた猫は、丸い顔で大きな瞳、そしてふわふわの毛並みを持っています。色は、オレンジと白のまだら模様です。背景は、薄い水色で、リラックスした雰囲気です。

この猫は、あなたを見つめ、何かを訴えかけているようです。

どうでしょうか？気に入っていただけましたか？

もし、修正点があれば教えてください。例えば、「もっとリアルに描いて」とか、「背景の色を変えて」など、具体的な指示をいただけると、よりあなたの好みに合わせた絵を描くことができます。

画像を説明させてみる

画像ファイルを読み込ませると、画像の説明してくれる。
ウマ娘のナリタブライアンを見せたところ、以下のように答えてくれた。

google/gemma-3-27b
この画像は、ゲーム画面のスクリーンショットですね。詳細に解析します。

全体的な印象:

ゲームタイトルは「ウマ娘プリティーダービー」のようです。
画面は、キャラクター「ジュエル」の育成画面の一部であると考えられます。
全体的に明るく、可愛らしいデザインが特徴的です。

違うよ！ナリタブライアンだよ！ジュエルじゃないよ！
いや、ジュエルがメインのゲームであるのは間違いないと思うけど。

qwen/qwen3-8b-Q8も試してみる

qwen/qwen3-8bもダウンロードしてみた。
GPUメモリは10/16GB。十分軽いね。
69tok/secってことでサクサク動く感じ。
でも会話を数回繰り返すと、モデルがすぐにクラッシュしてしまう。安定性の面ではいまいちかなあ。

まとめ

Q4量子化のおかげで今回の27BがPCで動いたらしいけど、かなり重かった。
別の量子化モデルも比較してみたい。
今使っているRTX4080って16GBなんだけど、もっと大きなメモリのモデルが欲しくなってくる。（結局、メモリが128GB乗っているDGX Sparkを購入してしまった。）

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up