0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Gemma 4 12B:エンコーダを捨てたマルチモーダルAIを16GBノートPCで動かす

0
Posted at

「マルチモーダルなのに、画像や音声の専用エンコーダを持たない」——2026年6月3日にGoogle DeepMindが公開したオープンモデル Gemma 4 12B は、AIの常識をひとつ外して作られている。テキスト・画像・音声を1つで扱う120億パラメータ級でありながら、重みはApache 2.0で配布され、量子化版なら16GBメモリの普通のノートPCでローカルに動く。本記事は、この「エンコーダを捨てた(encoder-free)」設計が、なぜ軽さとローカル実行につながるのかを仕組みから追う。ローカルでAIを動かしたことがなくても、手元のPCで完結するAIに少しでも興味があるなら、読み進める価値はあるはずだ。

Gemma 4 12Bは、専用エンコーダを丸ごと捨てた

従来のマルチモーダルモデルは、ほぼ例外なく多段構成だった。「画像→画像用の専用ニューラルネット(vision encoder)→言語モデル(LLM)」「音声→音声用エンコーダ→LLM」と、入力の種類ごとに前処理ネットワークを置き、その出力をLLM本体へ渡す。画像と音声に専属の通訳を一人ずつ付け、その訳をLLMに聞かせる作りだと思えばいい。Gemma 4ファミリーでも従来は、中サイズ機で約550M(5億5千万)パラメータの画像用エンコーダを別途必要としていた。音声については、これまで音声入力を扱えたのはエッジ向けの小型機(E2B/E4B)だけで、そこでは約300Mの音声用エンコーダを使っていた。

Gemma 4 12Bは、この専用エンコーダ群を丸ごと取り払う。通訳を外し、本体が生の画像・音声を直接受け取るのだ。Googleの開発者ガイドはこれを「単一のデコーダ専用トランスフォーマ(a single decoder-only transformer)」——文章を先頭から順に続けて書いていく、GPTなどと同じ系統の1本のモデル——と表現し、本体は上位のGemma 4 31B Dense版と同じ構造を共有すると説明している。この撤廃そのものが、後で見る「軽さ」の出発点になる。

エンコーダ無しの中身:画像は行列積1回、音声は波形を切るだけ

では専用エンコーダ無しで、画像と音声をどうLLMに入れているのか。ここが一番おもしろい。

画像はこうだ。従来27層あった画像用トランスフォーマを、わずか35M(3,500万)パラメータの「埋め込み器(vision embedder)」に置き換えた。やることは単純で、画像を48×48ピクセルのパッチ(小さな正方形のタイル)に切り、各パッチを1回の行列積でLLMが扱える内部のベクトルへ「射影」する——射影とは、あるデータを別の形式の空間へ写し替える操作だと思えばいい。「どの位置のパッチか」という情報は、X方向とY方向の座標表を引いて足し込む(座標で位置を補う)。

音声はさらに思い切っている。専用エンコーダを完全に撤廃し、16kHzの音声波形を40ミリ秒ごとのまとまり(フレーム)に区切って、そのまま線形に射影してLLMへ渡すだけ。中サイズのGemmaとしては、これが初のネイティブ音声入力になる。

従来方式との違いを図にすると次の通り。

[従来のマルチモーダルモデル]
  画像 ──▶ 専用 vision encoder(〜550M)──┐
  音声 ──▶ 専用 audio encoder(〜300M)──┼──▶ LLM 本体
  テキスト ───────────────────────────┘

[Gemma 4 12B(encoder-free)]
  画像(48×48パッチ)──▶ 35M 埋め込み(単一の行列積)──┐
  音声(40msフレーム)──▶ 線形射影 ────────────────┼──▶ LLM 本体
  テキスト ────────────────────────────────────┘
        ※ 画像・音声・テキストは「同じ重み」を共有する

ポイントは、画像・音声・テキストがすべて同じ重み(weights)を共有していることだ。種類ごとに別々の凍結エンコーダを抱えないので、微調整(fine-tuning)も単純になる。開発者ガイドによれば、LoRA(特定タスク向けの小さな差分パラメータだけを足す手法)でもフルチューニングでも、画像・音声・テキストをまとめて1回の更新で調整できる。

16GBで動く理由は「引き算」と「量子化」にある

「エンコーダを外した」設計は、そのまま軽さに効く。Googleの公式ブログは、複数の専用エンコーダを前段に積む構成がレイテンシ(応答までの待ち時間)の増加とメモリの断片化を招くと指摘している。Gemma 4 12Bはこの前段を撤廃したぶん、メモリと待ち時間の両方を削れた。

ただし「16GBで動く」には、もう一つ前提がある。120億パラメータを、量子化していない元の精度(fp16)のまま読み込めば、必要なメモリは20GBを大きく超えてしまう。そこでGoogleは、学習の段階から数値を粗くしてもズレにくいよう作り込んだ「量子化版」(QATと呼ばれる)のビルドを配布している。OllamaやLM Studioで配られるのはこの量子化済みのビルドで、これを使うことで16GBに収まる。encoder-freeによる前段の削減と、量子化による本体の圧縮——この合わせ技で、普通のノートPCに降りてきたわけだ。ローカルLLMをメモリの観点で諦めていた人ほど、ここが効く。

性能は慎重に書く。公式は「上位の26B(MoE)版に迫る性能を、半分以下のメモリで出す」という定性的な表現にとどめている——MoE(Mixture of Experts)は、複数の専門家モデルを抱えて入力ごとに一部だけ動かす方式で、Gemma 4 12Bの密(dense)な構成とは別系統だ。MMLUなどの具体的なベンチマーク数値や、量子化後の実メモリ・生成速度は公式が公開しておらず(二次サイトの数値はサイト間で食い違う)、ここは自分の環境で測るのが確実だ。なおGoogleは、複数のトークンを先読みして生成を速めるMTP用の小さなモデルも公開しており、LiteRT-LMと組み合わせるとローカル推論が最大2.2倍ほど速くなると報告されている。

Ollamaなら1行、LiteRT-LMでローカルAPIサーバも数手で

気になるのは「結局、自分のPCでどう動かすのか」だろう。Gemma 4 12Bは重みがApache 2.0で公開され、Ollama・LM Studio・llama.cpp・MLX・SGLang・vLLM・LiteRT-LMと広範なランタイムに対応している。一番手軽なのはOllamaの1行だ。

# Ollama で Gemma 4 12B をダウンロードして対話開始(最小の入口)
ollama run gemma4:12b

もう少し踏み込んで、ローカルにOpenAI互換のAPIサーバを立てるなら、Google AI EdgeのLiteRT-LMが使える。

# 1) Hugging Face から重みを取り込み、gemma4-12b という名前で登録
litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b

# 2) OpenAI 互換のローカルサーバを起動(既定で localhost:9379)
litert-lm serve

# 3) OpenAI 互換エンドポイントに、いつもの /v1/chat/completions で投げるだけ
curl http://localhost:9379/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{ "model": "gemma4-12b,gpu", "messages": [ { "role": "user", "content": "Hello!" } ] }'

OpenAI互換であることの利点は大きい。既存のOpenAI SDKのコードを、接続先(base URL)だけ手元のサーバに差し替えれば、ほぼそのまま動くからだ。Pythonなら流れはこうなる。

# 概念コード:OpenAI 互換ローカルサーバ(LiteRT-LM serve)に向けるだけ
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:9379/v1",  # クラウドではなく手元のサーバを指す
    api_key="not-needed",                 # ローカルなので任意の文字列でよい
)

resp = client.chat.completions.create(
    model="gemma4-12b,gpu",               # litert-lm import で付けた名前 + 実行先
    messages=[ { "role": "user", "content": "この画像と音声をまとめて要約して" } ],
)
print(resp.choices[0].message.content)

実運用では、Continue・Aider・OpenCodeといった既存のコーディング支援ツールを、このローカルエンドポイントに向けるだけでローカルLLM化できる。「全モダリティが同じ重み」のおかげで、画像も音声もテキストも同じ1つのエンドポイントへ投げられる。なお上のPythonは流れを示す概念コードだ。コピーしてそのまま動く正確なモデル名や引数は、Googleの公式ガイド「Bringing Gemma 4 12B to your Laptop」(参考文献3)に実例があるので、そちらを正としてほしい。

どこで動いているかと、正直な弱点

最後に、このモデルが実際に何を動かしているかと、率直な限界を見る。リリースから日が浅く、確度が高いのはGoogle自身の一次プロダクトだ。なかでも分かりやすいのが、macOS向けの音声アプリ「Google AI Edge Eloquent」。マイクに話しかけて文字を起こすだけでなく、「この段落を3行に縮めて」「英語に直して」といった音声の指示でテキストそのものを編集・翻訳できる(Voice Edit)。注目したいのは、これが録音もテキスト処理もすべて手元で完結する100%オンデバイス動作だという点だ——encoder-freeでネイティブ対応した「音声」を、クラウドに一切送らず処理しきっている。ほかに、自然言語からPythonを生成・実行する「AI Edge Gallery」や、前述のLiteRT-LM serveもある。

ただし正直に言えば、これらはいずれもGoogleの一次プロダクトで、Google以外の第三者による本番採用事例は現時点でまだ表に出ていない。リリース直後ゆえの当然の状況だが、「公式デモの段階」だと差し引いて読んでほしい。

弱点も隠さない。RedditやHacker Newsでは「単純なタスクには十分だが、曖昧で難しい課題ではQwen3.6などに劣る」という声がある。万能の置き換えではなく、ローカルで賄える範囲を見極めて使うモデルだ。入力長にも目安があり、VentureBeatの解説では音声は約30秒、動画は60秒(1FPS)程度が上限とされる。一方でGoogleの開発者ガイドには5分の動画を処理したデモもあり、両者は食い違う。実際の上限は設定やトークン予算によると考えられるので、長尺は自分の環境で確かめるのが安全だ。

ローカルで賄う、という新しい現実解

推論コスト・レイテンシ・データ主権(自社データを外に出さないこと)に悩む場面は多い。Gemma 4 12Bの「マルチモーダルなのに専用エンコーダが無い」という一点は、画像も音声も手元のノートPCで完結させ、しかもOpenAI互換のエンドポイントで既存のコードにそのまま差し込める、という現実的な利便につながった。クラウドの大型モデルをまるごと置き換える話ではない。だが「賄える処理はローカルで、難所だけクラウドへ」という線引きを、ぐっと引きやすくしてくれる。この「ローカルで賄う」設計を、あなたなら自分のどの処理から当ててみたいだろうか。

参考文献

  1. Google「Introducing Gemma 4 12B」(公式ブログ) - https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/
  2. Google Developers Blog「Gemma 4 12B: The Developer Guide」(公式開発者ガイド) - https://developers.googleblog.com/gemma-4-12b-the-developer-guide/
  3. Google Developers Blog「Bringing Gemma 4 12B to your Laptop: Unlocking Local, Agentic Workflows with Google AI Edge」(公式開発者ブログ) - https://developers.googleblog.com/bringing-gemma-4-12b-to-your-laptop-unlocking-local-agentic-workflows-with-google-ai-edge/
  4. InfoQ「Google's Gemma 4 12B Enables On-Device Local Coding with Encoder-Free Architecture」 - https://www.infoq.com/news/2026/06/google-gemma4-12b-local-coding/
  5. VentureBeat「Google's new open source Gemma 4 12B analyzes audio, video and runs entirely locally on a typical 16GB enterprise laptop」 - https://venturebeat.com/technology/googles-new-open-source-gemma-4-12b-analyzes-audio-video-and-runs-entirely-locally-on-a-typical-16gb-enterprise-laptop
  6. Startup Fortune「Google makes Gemma 4 12B a local AI bet for startups」 - https://startupfortune.com/google-makes-gemma-4-12b-a-local-ai-bet-for-startups/
  7. Ollama Model Library「gemma4」(配布レジストリ) - https://ollama.com/library/gemma4
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?