1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

ローカルで動く"賢いMoE":Gemma4 26B A4B の推論環境を完全セットアップしてみた

1
Last updated at Posted at 2026-06-05

はじめに

この記事は FPTスマートクラウドジャパン株式会社FPT AI FACTORY として、「Gemma4 26B A4B をローカルやクラウドGPU環境でちゃんと動かすにはどうすればいいか?」を整理するために書いています。

環境差分で詰まりやすいポイントを中心に、手を動かしながら理解できる形でまとめます。


この記事でわかること

  • Gemma4 26B A4B の「MoEってなに?」から理解する設計思想
  • 推論に最低限必要なVRAM・RAMの目安
  • Ollama / vLLM / HuggingFace Transformers、3パターンのセットアップ手順
  • 量子化の選び方(Q4 / Q8 / NVFP4)と、それぞれの罠
  • 実務で使うときの注意点(チャットテンプレートの変更点、思考モードの扱い)
  • FPT AI FACTORY のGPU環境を使う選択肢

1. Gemma4 26B A4B ってどんなモデル?

2026年3月31日にGoogleがリリースした Gemma 4 は、4つのサイズ展開(E2B / E4B / 26B A4B / 31B)のモデルファミリーです。

今回フォーカスする 26B A4B は、MoE(Mixture of Experts)アーキテクチャを採用したモデルです。

MoEって結局なに?(超ざっくり)

「26Bのパラメータを全部使うんじゃなくて、推論のたびに必要な専門家(Expert)だけ呼ぶ」設計です。

総パラメータ数:26B
推論時にアクティブになるのは:約3.8B(≒ A4B の "A")

これにより、31B Denseモデルとほぼ同じ応答品質を、4Bモデルに近い速度で出せるという美味しいところ取りを実現しています。

MoEの罠:推論の計算量は軽いが、モデル全体のデータをメモリ上に展開しておく必要があるため、見た目の4Bより多くのメモリが必要になります。


2. まず、どのくらいのメモリが必要か?

環境選びを間違えると「ダウンロードしたのに動かない」で詰まります。先に確認してください。

量子化フォーマット ファイルサイズ目安 必要VRAM/RAM目安 用途
フル精度(BF16) 約52GB 60GB以上 研究・精度重視
Q8_0(8bit) 約28GB 28GB以上 精度とサイズのバランス
Q4_K_M(4bit) 約16〜18GB 18GB以上 実用。OllamaのデフォルトはこれかQ4
Q3_K_M(3bit) 約12〜13GB 16GB以上 VRAM16GBでギリ入れたいときの選択肢

ポイント:「VRAM 16GBのRTX 4080なら余裕で動くはず」は甘い見積もりです。Q4_K_Mで約16〜18GB必要なため、Q3_K_Mかクラウド環境が現実的な選択肢になります。


3. セットアップ方法3パターン

① Ollama(一番簡単・ローカル推奨)

ローカルで試すなら、まずOllamaから入るのが最短ルートです。

# Ollamaインストール(Mac/Linux)
curl -fsSL https://ollama.com/install.sh | sh

# Windowsはollama.comからインストーラーをDL

# モデルをpull
ollama pull gemma4:26b

# 動作確認
ollama run gemma4:26b "日本語で自己紹介してください"

量子化フォーマットを指定したいときは gemma4:26b-q8_0 のようにタグで指定できます。デフォルト(タグなし)はQ4相当です。

APIとして使うなら、ollama serve で起動後、OpenAI互換APIにアクセスできます:

curl http://localhost:11434/api/chat -d '{
  "model": "gemma4:26b",
  "messages": [
    {"role": "user", "content": "MoEとDenseの違いを教えて"}
  ]
}'

② HuggingFace Transformers(Python / 研究・ファインチューニング向け)

PythonのコードからGemma4を使いたい場合のセットアップです。

pip install -U transformers torch torchvision accelerate huggingface_hub
from huggingface_hub import login
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# HuggingFaceのHF_TOKEN(要登録・モデル利用規約への同意)
login(token="YOUR_HF_TOKEN")

model_id = "google/gemma-4-26B-A4B-it"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype=torch.bfloat16
)

# Gemma4からチャットテンプレートが変更されています(後述)
messages = [
    {"role": "user", "content": "MoEとDenseの違いを教えてください"}
]

inputs = tokenizer.apply_chat_template(
    messages,
    return_tensors="pt",
    return_dict=True
).to(model.device)

with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=512)

response = tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True)
print(response)

注意:フル精度(BF16)ではVRAMが60GB以上必要です。メモリが限られる場合は load_in_4bit=True(bitsandbytes使用)か、後述のGGUFを使ってください。


③ vLLM(本番サービング・高スループット向け)

APIサービスとして本番運用するなら、vLLMが選択肢に入ります。

pip install vllm
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-26B-A4B-it \
  --dtype bfloat16 \
  --tensor-parallel-size 2  # GPU数に合わせて調整

vLLMの注意点:汎用の vllm/vllm-openai:latest(0.18.0以前)では、Gemma4のtransformers実装との互換性問題でロードに失敗するケースがあります。transformers >= 5.4 が必要です。

pip install "transformers>=5.4"

4. Gemma3からの変更点:チャットテンプレートに注意

Gemma4では、以前のGemmaシリーズとチャットテンプレートが変わっています。これを知らずにハマる人が結構います。

変更点まとめ

項目 Gemma3以前 Gemma4
ロール設定 独自トークン 標準の system / user / assistant
思考モード なし 明示的な制御トークンで有効/無効
最大コンテキスト 128K(全サイズ) 128K(E2B/E4B)/ 256K(26B/31B)

思考モード(Thinking)の扱い

Gemma4の26Bには「思考プロセス機能」が入っており、回答前に内部推論を行うモードがあります。

# 思考モードを有効にする場合のメッセージ構造例
messages = [
    {
        "role": "system", 
        "content": "あなたは優秀なアシスタントです。"
    },
    {
        "role": "user",
        "content": "この問題をステップごとに考えてください:..."
    }
]

注意:マルチターン会話の場合、前のターンの思考ブロックを次のターンに含めないようにしてください。チャット履歴には最後の可視回答のみを残します。


5. 量子化の選び方:迷ったらこの表で判断

どのフォーマットを使うべきか?

6. ハマりやすい落とし穴まとめ

実際に試した中で詰まりやすいポイントを整理しておきます。

症状 原因 対処
Ollamaでpullしたのに起動しない VRAM/RAM不足 Q3に落とすかクラウド環境へ
出力が英語になる systemプロンプトを日本語化していない role: system で言語指定
マルチターンで思考ブロックが混入 前ターンの思考ブロックを渡している 可視回答部分のみを履歴に含める
vLLMでロード失敗 transformersバージョンが古い pip install "transformers>=5.4"
推論が異常に遅い CPUフォールバックしている GPUをちゃんと認識しているか確認

7. クラウドGPU環境を使う選択肢:FPT AI FACTORY

「ローカルに対応GPUがない」「すぐにAPI形式でGemma4を試したい」という場合は、クラウドGPU環境が現実的な選択肢です。

FPT AI FACTORYでは、即使えるGPU環境とともに以下が使えます:

  • すぐ使えるGPUコンテナ環境
  • ノーコードでのファインチューニング実行・テスト
  • JupyterNotebook形式での検証環境

ローカルでVRAMが足りなくて詰まっている人は、まずクラウドで動かしてみるのがおすすめです。

無料バウチャー提供中(2026年6月時点)
新規ユーザー向けに、FPT AI FACTORYを30日間お試しいただける 100ドル分のクレジットを提供しています。


まとめ

  • Gemma4 26B A4B は、MoEアーキテクチャで「26B相当の品質・4B相当の推論速度」を実現したモデル
  • メモリ要件はQ4で 18GB前後。VRAM16GBはギリギリなので事前確認を
  • 手軽に試すなら Ollama、Pythonから使うなら Transformers、本番サービングなら vLLM
  • Gemma3からの チャットテンプレート変更と、思考ブロックの扱いは要注意
  • ローカル環境が整わないなら、クラウドGPU環境(FPT AI FACTORY)という選択肢もある
1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?