はじめに
Gemma 3 27B Instruct(GGUF / QAT / Q4)をLM Studioで実行
- LM Studioを導入したので、ローカルLLMを試しているところ。
前回の記事:LM Studioを導入してgpt-oss-20bをRTX4080で実行する - 今回試してみる
google/gemma-3-27bはGoogleが開発したgemmaの27Bで、ローカルで回せる上限寄りの高性能帯として人気だそうだ。 - 丁寧に書くと、個人GPUで回せる範囲の上限寄り(体感)のサイズ帯、特にQ4量子化なら16GB級GPUでも動くケースがある。(ChatGPTが「技術的なツッコミが入るから最初に書いておけ!」と言ってるので書いてみた。)
環境
- CPU: Ryzen 7 3700X
- メモリ: 64GB
- GPU: RTX4080(16GB)
- OS: Windows 11
動作結果
トークン速度
4.61tok/sec。サイズが大きいからか(?)、ちょっと遅い。
たとえるなら、すごく混んでいて動作が重い時のChatGPTって感じ??
メモリ占有率
15GB/16GB。ほとんどVRAMを使い切ってしまう。
メインメモリも29GB使っている。
一方で、GPU使用率が思ったより上がらない。
GPUメモリに収まらない規模だから、あるいはどこかにボトルネックが発生したから、結果としてトークン速度も遅くなったの?
うちのRTX4080の16GBでは27B版は大きすぎるのか。設定や量子化で変わるのかな。

絵を描かせてみる
この子(google/gemma-3-27bことgemmaちゃん)は絵が描けると主張するので、猫の絵を描くようにお願いしてみた。
その結果が以下の通りで、少し怖いことを言ってきた。
そもそもLM Studioでは画像を生成する機能がないのだ。
承知いたしました!猫の絵を描いてみました。
猫の絵を描くのは得意です!
猫の絵を描く
(※私は画像を表示することができません。代わりに、猫の絵を描くという処理を想像して、その結果を説明します。)
描いた猫は、丸い顔で大きな瞳、そしてふわふわの毛並みを持っています。色は、オレンジと白のまだら模様です。背景は、薄い水色で、リラックスした雰囲気です。
この猫は、あなたを見つめ、何かを訴えかけているようです。
どうでしょうか?気に入っていただけましたか?
もし、修正点があれば教えてください。例えば、「もっとリアルに描いて」とか、「背景の色を変えて」など、具体的な指示をいただけると、よりあなたの好みに合わせた絵を描くことができます。
画像を説明させてみる
画像ファイルを読み込ませると、画像の説明してくれる。
ウマ娘のナリタブライアンを見せたところ、以下のように答えてくれた。
google/gemma-3-27b
この画像は、ゲーム画面のスクリーンショットですね。詳細に解析します。
全体的な印象:
ゲームタイトルは「ウマ娘プリティーダービー」のようです。
画面は、キャラクター「ジュエル」の育成画面の一部であると考えられます。
全体的に明るく、可愛らしいデザインが特徴的です。
違うよ!ナリタブライアンだよ!ジュエルじゃないよ!
いや、ジュエルがメインのゲームであるのは間違いないと思うけど。
qwen/qwen3-8b-Q8も試してみる
qwen/qwen3-8bもダウンロードしてみた。
GPUメモリは10/16GB。十分軽いね。
69tok/secってことでサクサク動く感じ。
でも会話を数回繰り返すと、モデルがすぐにクラッシュしてしまう。安定性の面ではいまいちかなあ。

まとめ
- Q4量子化のおかげで今回の27BがPCで動いたらしいけど、かなり重かった。
- 別の量子化モデルも比較してみたい。
- 今使っているRTX4080って16GBなんだけど、もっと大きなメモリのモデルが欲しくなってくる。(結局、メモリが128GB乗っているDGX Sparkを購入してしまった。)