Gemma 4をローカルで動かす ── PLE・量子化・TCO計算まで踏み込む実践ガイド

Posted at 2026-04-07

2026年4月2日、Google DeepMindがGemma 4をApache 2.0ライセンスで公開しました。E2B、E4B、26B MoE、31B Denseの4サイズ展開で、スマートフォンからワークステーションまでカバーします。

Reddit r/LocalLLaMAでは公開直後から大きな反響があり、Arena（旧LMSYS Chatbot Arena）のテキストリーダーボードでは31Bがオープンモデル3位（ELO 1,452）、26B MoEが6位にランクインしています。

この記事では、Gemma 4の技術的な特徴を掘り下げたうえで、手元のデバイスで動かすための具体的な手順を整理します。

Gemma 4の技術的な強み

Apache 2.0ライセンス

商用利用・改変・再配布が自由なApache 2.0を採用しています。LlamaやMistralのカスタムライセンスと異なり、企業での法務確認のハードルが大きく下がります。

Per-Layer Embeddings（PLE）の仕組み

従来のTransformerでは、入力時にトークンごとに1つの埋め込みベクトルを与え、それが全デコーダーレイヤーで共有されます。PLEはこの構造を拡張し、各デコーダーレイヤーに専用の低次元ベクトルを供給します。

PLEは2つの信号を合成してレイヤーごとのベクトルを生成します。埋め込みテーブルからのトークン固有ベクトル（トークン同一性成分）と、メイン埋め込みの学習済み射影から得られる文脈ベクトル（コンテキスト認識成分）です。合成されたベクトルは各デコーダーレイヤーのAttention/Feed-Forward後段の軽量残差ブロックに入力され、隠れ状態を調整します。メインの残差ストリームと並行する低次元の条件付けパスウェイとして、レイヤーごとに異なる振る舞いを可能にしています。

この設計の利点は、埋め込みテーブル自体のパラメータ数は大きいものの、推論時はルックアップ操作のみで済むため、実効的な計算コストが小さく抑えられる点です。E2Bは総パラメータ5.1Bに対して実効パラメータ2.3Bで動作し、量子化と組み合わせると1.5GB未満のメモリで推論できます。モデル名の「E」は「Effective（実効）」の頭文字です。

加えて、ローカルスライディングウィンドウアテンションとグローバルフルコンテキストアテンションを交互に配置し、RoPEもレイヤー種別ごとに標準/比例の二重構成とすることで、128K〜256Kの長いコンテキスト長を実現しています（Google Developers Blog、Hugging Face Blog）。

4サイズ展開

モデル	パラメータ	コンテキスト長	推奨デバイス	ユースケース
E2B	2.3B（実効）	128K	iPhone、スマートフォン	オンデバイス補完、Q&A
E4B	4.5B（実効）	128K	Raspberry Pi、エッジ	IoT、組み込みAI
26B MoE	26B（総25.2B / 活性3.8B）	256K	M3 Pro Mac、GPU搭載PC	コーディング支援、RAG
31B Dense	30.7B	256K	ワークステーション	フロンティア級推論

全モデルが画像・動画のマルチモーダル入力をサポートし、140以上の言語を処理します。音声入力はE2BとE4Bのみ対応で、26B MoEと31B Denseはテキスト+画像の入力に限定されます（モデルカード）。

ベンチマーク結果

推論品質

ベンチマーク	Gemma 4 31B	Gemma 4 26B MoE	Gemma 3 27B
AIME 2026（数学）	89.2%	88.3%	20.8%
GPQA Diamond（科学）	84.3%	82.3%	-
LiveCodeBench v6（コーディング）	80.0%	77.1%	29.1%
HumanEval（コーディング）	-	80%（E4Bでも）	29%
Codeforces ELO	2,150	-	-
Arena ELO（テキスト）	1,452	-	-

Gemma 3からの伸びが顕著です。数学は20.8%から89.2%、コーディング（LiveCodeBench）は29.1%から80.0%へ大幅に向上しています。26B MoEは活性パラメータ3.8BでAIME 88.3%を達成しており、パラメータ効率では現時点で最も優れた推論モデルの一つです。

31BのArena ELO 1,452はオープンモデル3位で、パラメータ数が20倍以上のモデルを上回るスコアです。ただし、クローズドモデル（Claude Opus 4.6、GPT-5.2等）とは依然として差があり、用途に応じた使い分けが必要です。

参考: Google公式ブログ - Gemma 4、Artificial Analysis - Gemma 4 31B

環境別セットアップガイド

M3 Pro Mac（最も実用的）

Ollamaを使うのが最も手軽です。Gemma 4リリース翌日にOllamaが全バリアントに対応しました。

# Ollamaのインストール（未導入の場合）
brew install ollama

# Ollamaサーバーの起動
ollama serve

# 別ターミナルで実行
# E4B（最もバランスが良い）
ollama run gemma4

# 26B MoE（M3 Pro 36GBなら快適に動く）
ollama run gemma4:26b

# 31B Dense（36GB以上推奨）
ollama run gemma4:31b

参考: Ollama - gemma4

量子化の選択基準

量子化とは、FP16の重みを4〜8ビットの整数に丸めてモデルサイズを削減する技術です。代償として丸め誤差（量子化誤差）で出力品質がわずかに低下します。品質劣化の度合いはPerplexity（困惑度）で測定され、値が小さいほど元のFP16に近い品質です。

llama.cppのK-quant方式は、ブロック単位で重要度の高い重みにより多くのビットを割り当てる二段階量子化で、均一量子化より品質劣化を抑えます。

量子化方式	平均ビット/重み	Perplexity増加（7Bモデル基準）	特徴
Q4_K_M	約4.58	+0.054	Ollamaのデフォルト。品質と速度のバランスが最も良い
Q5_K_M	約5.69	+0.042	メモリに余裕があるなら推奨。品質劣化が小さい
Q8_0	約8.50	+0.01	ほぼ無損失。CPU推論ではデクォンタイズが単純なため最速

参考: llama.cpp - 量子化方式の比較

Gemma 4各モデルのメモリ要件は以下の通りです。

モデル	Q4_K_M時のメモリ	推奨RAM
E4B	約2.5GB	8GB以上
26B MoE	約16GB	24GB以上
31B Dense	約20GB	36GB以上

26B MoEはパラメータ総数26Bですが、推論時に活性化するのは3.8Bだけです。メモリにはモデル全体をロードする必要がありますが、推論速度はパラメータ数の割に高速です。

llama.cppで直接動かす場合

UnslothのGGUFファイルを使います。

# llama.cppのビルド（Metal対応）
git clone https://github.com/ggml-org/llama.cpp && cd llama.cpp
cmake -B build -DGGML_METAL=ON
cmake --build build --config Release -j

# 実行（26B MoE, Q4_K_M の例）
./build/bin/llama-cli \
  -m gemma-4-26B-A4B-it-Q4_K_M.gguf \
  -c 8192 -ngl 99 \
  -p "Explain Per-Layer Embeddings in Gemma 4."

iPhone（モバイル）

iPhoneでGemma 4を動かすルートは主に2つです。

1. Google AI Edge Gallery（推奨）: iOS/Android向けに公開済みのアプリです。E2Bを1.5GB未満のメモリで動かせます。AI Chat、Ask Image、Audio Scribe、Agent Skillsの4モードが利用可能で、全てオンデバイスで完結します。iPhone 15 Pro以降が推奨です。

2. MLX Swift経由: Unslothがgemma-4-E4B-it-UD-MLX-4bitを公開しており、iOSアプリへの組み込みが可能です。

E4B以上はiPhone 15 Pro/Pro Max以降が必要です。

参考: Google Developers Blog - Edge deployment、Google AI for Developers - Mobile deployment

Raspberry Pi（エッジ）

Raspberry Pi 5でGemma 4 E2Bが動作します。LiteRT-LM（旧TensorFlow Lite系列のGoogle AI Edge推論ライブラリ）を使います。

# LiteRT-LMのインストール（uv経由）
uv tool install litert-lm

# E2Bモデルのダウンロードと実行
litert-lm run \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="Hello, Gemma"

Google公式ベンチマークでは、Raspberry Pi 5のCPU実行で以下の速度が報告されています。

プリフィル: 133 tokens/s
デコード: 7.6 tokens/s

2bit/4bit量子化とメモリマップされたPLEの組み合わせにより、限られたメモリのデバイスでも実行可能です。Qualcomm Dragonwing IQ8ではNPUアクセラレーションも利用できます。

参考: GitHub - LiteRT-LM、Hugging Face - gemma-4-E2B-it-litert-lm

API課金 vs セルフホスティングのTCO比較

ローカルLLMの導入判断には、ハードウェア購入費だけでなく総所有コスト（TCO）の試算が必要です。ここではM3 Pro MacBook Pro（36GB RAM）でGemma 4 26B MoEを運用するケースを想定します。

セルフホスティングのコスト内訳

項目	金額	備考
ハードウェア（M3 Pro 36GB）	約30万円	3年償却で月額約8,300円
電気代（推論時50W想定）	月額約550円	1日8時間稼働、電力単価30円/kWhで計算
メンテナンス工数	月額約2,000円相当	モデル更新・トラブル対応を月1時間と仮定
セルフホスティング月額合計	約10,850円	-

損益分岐点

月額API利用量	TCOベースの回収期間	判定
1万円/月	回収不可（TCOが上回る）	API継続が合理的
2万円/月	約33ヶ月	長期利用なら検討余地あり
3万円/月	約16ヶ月	品質差を許容できるなら現実的
5万円以上/月	約8ヶ月	積極的に検討すべき

前提として、Gemma 4 26B MoEとClaude/GPT系では品質差があり完全な代替にはなりません。一方、既にMacを所有している場合は実質的な追加コストが電気代とメンテナンスのみとなり、損益分岐点はさらに有利になります。

ローカルLLMの実用的なワークフロー

ローカルLLMはAPI課金の代替ではなく、APIでは対応しづらい領域を補完するツールです。以下に具体的なユースケースを整理します。

プライベートRAG環境の構築

社内文書やSlackログなど、外部APIに送信できない機密データを扱う場合に有効です。

# Ollamaのembedding APIでベクトル化
curl http://localhost:11434/api/embeddings \
  -d '{"model": "gemma4", "prompt": "検索対象のテキスト"}'

ChromaやQdrantと組み合わせれば、社内文書のチャンク分割 → Embedding → ベクトルDB格納 → 類似検索 → コンテキスト付き生成というRAGパイプラインが構築できます。全データがローカルに留まるため、機密文書を安心して扱えます。

CI/CDパイプラインへの組み込み

OllamaはローカルでOpenAI互換のAPIサーバーとして動作するため、既存のツールチェーンにそのまま統合できます。

# セルフホストランナーからOllamaのOpenAI互換APIを呼ぶ例
curl -s http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"gemma4:26b","messages":[
    {"role":"system","content":"コードレビューアーとして振る舞ってください。"},
    {"role":"user","content":"'"$(git diff HEAD~1)"'"}
  ]}' | jq -r '.choices[0].message.content'

コードレビュー下書き、テストケース生成、ドキュメント自動更新など、APIコストが積み上がりやすい反復タスクに適しています。セルフホストランナーなら、コードが外部に出ることもありません。

オフライン環境での活用

移動中や回線が不安定な環境でも、Ollamaさえ起動していれば推論可能です。E4Bなら約2.5GBで動作するため、ほとんどのラップトップで常駐させられます。機密コードの分析、プロンプトの試行錯誤、大量のテキスト生成など、オフラインでもAPIと同様の作業が行えます。

まとめ

Gemma 4は、PLEによるパラメータ効率とApache 2.0ライセンスの組み合わせにより、ローカルLLMの実用性を大きく押し上げたモデルです。

まずはollama run gemma4で試してみてください。E4Bなら2.5GBのメモリで動きます。そこから26B MoE、31B Denseと段階的にスケールアップしていくのが良いでしょう。

ローカルLLMはAPIの補完として、機密データの処理、オフライン利用、反復タスクのコスト最適化など、APIでは対応しづらい領域をカバーするツールとして位置づけるのが現実的です。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up