Gemma 4 12B:エンコーダを捨てたマルチモーダルAIを16GBノートPCで動かす

Posted at 2026-06-10

「マルチモーダルなのに、画像や音声の専用エンコーダを持たない」——2026年6月3日にGoogle DeepMindが公開したオープンモデル Gemma 4 12B は、AIの常識をひとつ外して作られている。テキスト・画像・音声を1つで扱う120億パラメータ級でありながら、重みはApache 2.0で配布され、量子化版なら16GBメモリの普通のノートPCでローカルに動く。本記事は、この「エンコーダを捨てた(encoder-free)」設計が、なぜ軽さとローカル実行につながるのかを仕組みから追う。ローカルでAIを動かしたことがなくても、手元のPCで完結するAIに少しでも興味があるなら、読み進める価値はあるはずだ。

Gemma 4 12Bは、専用エンコーダを丸ごと捨てた

従来のマルチモーダルモデルは、ほぼ例外なく多段構成だった。「画像→画像用の専用ニューラルネット(vision encoder)→言語モデル(LLM)」「音声→音声用エンコーダ→LLM」と、入力の種類ごとに前処理ネットワークを置き、その出力をLLM本体へ渡す。画像と音声に専属の通訳を一人ずつ付け、その訳をLLMに聞かせる作りだと思えばいい。Gemma 4ファミリーでも従来は、中サイズ機で約550M(5億5千万)パラメータの画像用エンコーダを別途必要としていた。音声については、これまで音声入力を扱えたのはエッジ向けの小型機(E2B/E4B)だけで、そこでは約300Mの音声用エンコーダを使っていた。

Gemma 4 12Bは、この専用エンコーダ群を丸ごと取り払う。通訳を外し、本体が生の画像・音声を直接受け取るのだ。Googleの開発者ガイドはこれを「単一のデコーダ専用トランスフォーマ(a single decoder-only transformer)」——文章を先頭から順に続けて書いていく、GPTなどと同じ系統の1本のモデル——と表現し、本体は上位のGemma 4 31B Dense版と同じ構造を共有すると説明している。この撤廃そのものが、後で見る「軽さ」の出発点になる。

エンコーダ無しの中身:画像は行列積1回、音声は波形を切るだけ

では専用エンコーダ無しで、画像と音声をどうLLMに入れているのか。ここが一番おもしろい。

画像はこうだ。従来27層あった画像用トランスフォーマを、わずか35M(3,500万)パラメータの「埋め込み器(vision embedder)」に置き換えた。やることは単純で、画像を48×48ピクセルのパッチ(小さな正方形のタイル)に切り、各パッチを1回の行列積でLLMが扱える内部のベクトルへ「射影」する——射影とは、あるデータを別の形式の空間へ写し替える操作だと思えばいい。「どの位置のパッチか」という情報は、X方向とY方向の座標表を引いて足し込む(座標で位置を補う)。

音声はさらに思い切っている。専用エンコーダを完全に撤廃し、16kHzの音声波形を40ミリ秒ごとのまとまり(フレーム)に区切って、そのまま線形に射影してLLMへ渡すだけ。中サイズのGemmaとしては、これが初のネイティブ音声入力になる。

従来方式との違いを図にすると次の通り。

[従来のマルチモーダルモデル]
  画像 ──▶ 専用 vision encoder(〜550M)──┐
  音声 ──▶ 専用 audio encoder(〜300M)──┼──▶ LLM 本体
  テキスト ───────────────────────────┘

[Gemma 4 12B(encoder-free)]
  画像(48×48パッチ)──▶ 35M 埋め込み(単一の行列積)──┐
  音声(40msフレーム)──▶ 線形射影 ────────────────┼──▶ LLM 本体
  テキスト ────────────────────────────────────┘
        ※ 画像・音声・テキストは「同じ重み」を共有する

ポイントは、画像・音声・テキストがすべて同じ重み(weights)を共有していることだ。種類ごとに別々の凍結エンコーダを抱えないので、微調整(fine-tuning)も単純になる。開発者ガイドによれば、LoRA(特定タスク向けの小さな差分パラメータだけを足す手法)でもフルチューニングでも、画像・音声・テキストをまとめて1回の更新で調整できる。

16GBで動く理由は「引き算」と「量子化」にある

「エンコーダを外した」設計は、そのまま軽さに効く。Googleの公式ブログは、複数の専用エンコーダを前段に積む構成がレイテンシ(応答までの待ち時間)の増加とメモリの断片化を招くと指摘している。Gemma 4 12Bはこの前段を撤廃したぶん、メモリと待ち時間の両方を削れた。

ただし「16GBで動く」には、もう一つ前提がある。120億パラメータを、量子化していない元の精度(fp16)のまま読み込めば、必要なメモリは20GBを大きく超えてしまう。そこでGoogleは、学習の段階から数値を粗くしてもズレにくいよう作り込んだ「量子化版」(QATと呼ばれる)のビルドを配布している。OllamaやLM Studioで配られるのはこの量子化済みのビルドで、これを使うことで16GBに収まる。encoder-freeによる前段の削減と、量子化による本体の圧縮——この合わせ技で、普通のノートPCに降りてきたわけだ。ローカルLLMをメモリの観点で諦めていた人ほど、ここが効く。

性能は慎重に書く。公式は「上位の26B(MoE)版に迫る性能を、半分以下のメモリで出す」という定性的な表現にとどめている——MoE(Mixture of Experts)は、複数の専門家モデルを抱えて入力ごとに一部だけ動かす方式で、Gemma 4 12Bの密(dense)な構成とは別系統だ。MMLUなどの具体的なベンチマーク数値や、量子化後の実メモリ・生成速度は公式が公開しておらず(二次サイトの数値はサイト間で食い違う)、ここは自分の環境で測るのが確実だ。なおGoogleは、複数のトークンを先読みして生成を速めるMTP用の小さなモデルも公開しており、LiteRT-LMと組み合わせるとローカル推論が最大2.2倍ほど速くなると報告されている。

Ollamaなら1行、LiteRT-LMでローカルAPIサーバも数手で

気になるのは「結局、自分のPCでどう動かすのか」だろう。Gemma 4 12Bは重みがApache 2.0で公開され、Ollama・LM Studio・llama.cpp・MLX・SGLang・vLLM・LiteRT-LMと広範なランタイムに対応している。一番手軽なのはOllamaの1行だ。

# Ollama で Gemma 4 12B をダウンロードして対話開始(最小の入口)
ollama run gemma4:12b

もう少し踏み込んで、ローカルにOpenAI互換のAPIサーバを立てるなら、Google AI EdgeのLiteRT-LMが使える。

# 1) Hugging Face から重みを取り込み、gemma4-12b という名前で登録
litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b

# 2) OpenAI 互換のローカルサーバを起動(既定で localhost:9379)
litert-lm serve

# 3) OpenAI 互換エンドポイントに、いつもの /v1/chat/completions で投げるだけ
curl http://localhost:9379/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{ "model": "gemma4-12b,gpu", "messages": [ { "role": "user", "content": "Hello!" } ] }'

OpenAI互換であることの利点は大きい。既存のOpenAI SDKのコードを、接続先(base URL)だけ手元のサーバに差し替えれば、ほぼそのまま動くからだ。Pythonなら流れはこうなる。

# 概念コード:OpenAI 互換ローカルサーバ(LiteRT-LM serve)に向けるだけ
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:9379/v1",  # クラウドではなく手元のサーバを指す
    api_key="not-needed",                 # ローカルなので任意の文字列でよい
)

resp = client.chat.completions.create(
    model="gemma4-12b,gpu",               # litert-lm import で付けた名前 + 実行先
    messages=[ { "role": "user", "content": "この画像と音声をまとめて要約して" } ],
)
print(resp.choices[0].message.content)

実運用では、Continue・Aider・OpenCodeといった既存のコーディング支援ツールを、このローカルエンドポイントに向けるだけでローカルLLM化できる。「全モダリティが同じ重み」のおかげで、画像も音声もテキストも同じ1つのエンドポイントへ投げられる。なお上のPythonは流れを示す概念コードだ。コピーしてそのまま動く正確なモデル名や引数は、Googleの公式ガイド「Bringing Gemma 4 12B to your Laptop」(参考文献3)に実例があるので、そちらを正としてほしい。

どこで動いているかと、正直な弱点

最後に、このモデルが実際に何を動かしているかと、率直な限界を見る。リリースから日が浅く、確度が高いのはGoogle自身の一次プロダクトだ。なかでも分かりやすいのが、macOS向けの音声アプリ「Google AI Edge Eloquent」。マイクに話しかけて文字を起こすだけでなく、「この段落を3行に縮めて」「英語に直して」といった音声の指示でテキストそのものを編集・翻訳できる(Voice Edit)。注目したいのは、これが録音もテキスト処理もすべて手元で完結する100%オンデバイス動作だという点だ——encoder-freeでネイティブ対応した「音声」を、クラウドに一切送らず処理しきっている。ほかに、自然言語からPythonを生成・実行する「AI Edge Gallery」や、前述のLiteRT-LM serveもある。

ただし正直に言えば、これらはいずれもGoogleの一次プロダクトで、Google以外の第三者による本番採用事例は現時点でまだ表に出ていない。リリース直後ゆえの当然の状況だが、「公式デモの段階」だと差し引いて読んでほしい。

弱点も隠さない。RedditやHacker Newsでは「単純なタスクには十分だが、曖昧で難しい課題ではQwen3.6などに劣る」という声がある。万能の置き換えではなく、ローカルで賄える範囲を見極めて使うモデルだ。入力長にも目安があり、VentureBeatの解説では音声は約30秒、動画は60秒(1FPS)程度が上限とされる。一方でGoogleの開発者ガイドには5分の動画を処理したデモもあり、両者は食い違う。実際の上限は設定やトークン予算によると考えられるので、長尺は自分の環境で確かめるのが安全だ。

ローカルで賄う、という新しい現実解

推論コスト・レイテンシ・データ主権(自社データを外に出さないこと)に悩む場面は多い。Gemma 4 12Bの「マルチモーダルなのに専用エンコーダが無い」という一点は、画像も音声も手元のノートPCで完結させ、しかもOpenAI互換のエンドポイントで既存のコードにそのまま差し込める、という現実的な利便につながった。クラウドの大型モデルをまるごと置き換える話ではない。だが「賄える処理はローカルで、難所だけクラウドへ」という線引きを、ぐっと引きやすくしてくれる。この「ローカルで賄う」設計を、あなたなら自分のどの処理から当ててみたいだろうか。

参考文献

Google「Introducing Gemma 4 12B」(公式ブログ) - https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/
Google Developers Blog「Gemma 4 12B: The Developer Guide」(公式開発者ガイド) - https://developers.googleblog.com/gemma-4-12b-the-developer-guide/
Google Developers Blog「Bringing Gemma 4 12B to your Laptop: Unlocking Local, Agentic Workflows with Google AI Edge」(公式開発者ブログ) - https://developers.googleblog.com/bringing-gemma-4-12b-to-your-laptop-unlocking-local-agentic-workflows-with-google-ai-edge/
InfoQ「Google's Gemma 4 12B Enables On-Device Local Coding with Encoder-Free Architecture」 - https://www.infoq.com/news/2026/06/google-gemma4-12b-local-coding/
VentureBeat「Google's new open source Gemma 4 12B analyzes audio, video and runs entirely locally on a typical 16GB enterprise laptop」 - https://venturebeat.com/technology/googles-new-open-source-gemma-4-12b-analyzes-audio-video-and-runs-entirely-locally-on-a-typical-16gb-enterprise-laptop
Startup Fortune「Google makes Gemma 4 12B a local AI bet for startups」 - https://startupfortune.com/google-makes-gemma-4-12b-a-local-ai-bet-for-startups/
Ollama Model Library「gemma4」(配布レジストリ) - https://ollama.com/library/gemma4

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up