こんにちは。@m_koshikawa です。
2026年4月にGoogleからリリースされた Gemma 4 を、Ollamaでローカル実行して実際の性能を計測しました。
Gemma 4の概要やインストール方法については、弊社メンバーの書いた記事がわかりやすいので、そちらをご覧ください。
本記事では 「実際に動かしたらどうだったか」 に絞って、実測データとともにお伝えします。
検証環境
| 項目 | 値 |
|---|---|
| マシン | Apple M5 MacBook Pro |
| メモリ | 32GB(ユニファイドメモリ) |
| モデル | gemma4:latest(8B / Q4_K_M) |
| コンテキスト長 | 131,072 tokens |
| メモリ使用量 | 14GB(100% GPU) |
ollama ps で確認すると、14GBのメモリを使用し、100% GPU(Metal) で動作しています。32GBのうち44%なので、他のアプリを開きながらでも余裕があります。
$ ollama ps
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gemma4:latest c6eb396dbd59 14 GB 100% GPU 131072 4 minutes from now
テキスト生成の速度を計測する
Ollamaでは --verbose フラグを付けて起動すると、応答ごとにトークン生成速度が表示されます。
ollama run gemma4 --verbose
対話の途中からでも /set verbose で切り替えられます。
日本語の応答速度
まずは簡単な日本語の会話です。
>>> おはよう
おはようございます!😊
何かお手伝いできることはありますか?😊
eval count: 16 token(s)
eval duration: 426.495918ms
eval rate: 37.52 tokens/s
37.52 tokens/s です。体感では、文字がさらさらと流れてくる印象で、待たされる感覚はありません。
もう少し長い応答も試してみます。
>>> 今日は夜に移動して東京に出張します
なるほど、夜に東京へ出張されるのですね!✈️💼
お疲れのところ、移動されますと大変かと思いますが、道中お気をつけていらしてくださいね。
東京でのご出張、お仕事がスムーズに進むよう、心よりお祈りしております。😊
もし、移動中の情報(例:東京の天気、おすすめの食事など)や、東京到着後に困りそうなこと
(例:道案内、資料の準備など)がありましたら、いつでもお声がけくださいね。
eval count: 112 token(s)
eval duration: 3.168449834s
eval rate: 35.35 tokens/s
112トークンの応答で 35.35 tokens/s です。長くなっても速度はほぼ変わりません。
日本語と英語で速度差はあるか
同じくらいの応答量で、日本語と英語を比較しました。
| 言語 | eval rate |
|---|---|
| 日本語 | 33.00 tokens/s |
| 英語 | 33.35 tokens/s |
ほぼ差なしです。 日本語だから遅くなる、ということはありませんでした。
thinkingモードのオン/オフで何が変わるか
Gemma 4はthinking(推論過程の表示)に対応しています。対話中に以下のコマンドで切り替えられます。
/set think # thinkingモードをオンにする
/set nothink # thinkingモードをオフにする
同じ画像認識タスクで、thinkingのオン/オフを比較しました。
| 項目 | nothink | think |
|---|---|---|
| 生成トークン数 | 220 tokens | 1,320 tokens |
| 所要時間 | 6.9秒 | 40.3秒 |
| 生成速度 | 32 tokens/s | 33 tokens/s |
tokens/s(1秒あたりの生成速度)はほぼ同じです。 遅くなっているのではなく、thinkingモードでは推論過程を含めて出力量が約6倍になるため、完了までの待ち時間が長くなります。
使い分けとしては、以下のようになります。
-
素早く結果が欲しいとき →
nothink -
分析の過程も見たい・より深い考察が欲しいとき →
think
vision機能で画像を読み取らせてみた
Gemma 4の8Bモデルは、テキスト生成だけでなく vision(画像認識) にも対応しています。ローカルの8Bモデルで日本語の画像がどこまで読み取れるのか、実際に試してみました。
画像の読み込み方
対話モードで、プロンプトと一緒に画像のフルパスを渡します。
>>> この画像を説明してください /Users/username/Downloads/image.png
ここで1つ注意点があります。チルダ(~)によるホームディレクトリの指定は効きません。 ~/Downloads/image.png では画像が読み込まれないので、フルパスで指定してください。
日本語テキストを含む画像の認識精度
今回は、以前弊社の技術ブログに投稿した記事「仕事で、知識で、技術ブログを続けられる仕組み」のサムネイル画像を使いました。日本語テキスト、フロー図、署名など、複数の要素が含まれた画像です。
この画像をGemma 4に読み取らせます。
>>> この画像は技術ブログのサムネイルです。画像に含まれるテキストやデザイン要素を
読み取って、どんな記事のサムネイルか推測してください。
Added image '/Users/username/Downloads/サムネイル.png'
結果は驚くほど正確でした。Gemma 4が読み取った内容を整理します。
今回の結果では、日本語のキャッチコピー、フロー図の矢印と各ステップ、署名の所属と氏名まで読み取れていました。 さらに、これらの要素を総合して「技術ブログの継続・発展のための仕組み化プロセスを解説するハウツー記事」と推測しています。画像に含まれる要素が比較的はっきりしたデザインだったことも精度に寄与していると思いますが、8Bのローカルモデルでここまで認識できたのは素直に驚きました。
vision使用時の処理速度
visionを使うと、入力処理(prompt eval)の速度に大きな差が出ます。
| 条件 | prompt eval rate(入力処理) | eval rate(生成速度) |
|---|---|---|
| テキストのみ | 13,000+ tokens/s | 33 tokens/s |
| 画像あり | 697 tokens/s | 33 tokens/s |
生成速度は変わりませんが、入力処理がテキストのみの約1/20になります。 画像を解析するための前処理に時間がかかるためです。体感としては、プロンプト送信後に数秒の「考え中」の間があり、その後は通常と同じ速度でテキストが流れてきます。
実測データのまとめ
| 項目 | 実測値 |
|---|---|
| モデル | Gemma 4 8B Q4_K_M |
| メモリ使用量 | 14GB(32GB中44%)/ 100% GPU(Metal) |
| 生成速度(nothink) | 35-37 tokens/s |
| 生成速度(think) | 32-33 tokens/s |
| 日本語 vs 英語 | 差なし |
| vision入力処理 | テキストのみの約1/20 |
| vision精度 | 日本語テキスト・フロー図・署名を正確に認識 |
参考
おわりに
今回検証したGemma 4の8B Q4_K_Mモデルは、M5 MacBook Pro 32GBの環境でメモリ使用量14GB、生成速度35 tokens/s以上で安定して動作しました。vision機能でも日本語テキストの認識がここまでできるとは思っていなかったので、個人的にはローカルLLMの印象が変わった検証でした。
Ollamaであれば ollama run gemma4 で始められるので、手元のマシンでどの程度の速度が出るか、気になった方は試してみると面白いかもしれません。
なお、Gemma 4の概要やモデルバリエーション(E2B / E4B / 26B MoE / 31B Dense)については、冒頭でも紹介した弊社メンバーの記事をご覧ください。本記事と合わせて読むと、全体像と実測値の両方が把握できるかと思います。
