最先端AIを技術の中身まで読み解く「AIウォッチ」の記事です。
初出:本サイト → https://aiwatch-jp.pages.dev/gemma4-e4b-qat-local
前回、1.74GB の VibeThinker-3B を手元で試しました。
強い解答エンジンでした。でも、長く複雑なタスクでは崩れました。
今回は、別の小モデルです。
Google の Gemma 4 E4B(QAT 版)。
結論から言います。
これは、崩れませんでした。
7GB のモデルが、競技数学を解き、私のコードを 27K トークンぶん読み切り、請求書の計算ミスまで指摘しました。
ただし、ひとつだけ覚えておきたい操作があります。
何を測ったか
モデルは mlx-community/gemma-4-e4b-it-qat-OptiQ-4bit。
有効 4B 相当で、テキストも画像も扱えます。
手元の環境は Apple M5、MLX で動かしました。
ディスク: 7.0GB
ロード: 約2.7秒
速度: 26〜32 tok/s
ピークメモリ: 約8GB
完全ローカル・無料・オフライン
数字だけでは信じません。
暗記できない問題と、私自身の非公開コードと、自作の画像で、自分で確かめました。
解けるものはコードを実行して採点し、数学は答えを先に計算してから出しました。
覚えるべきは、たったひとつ
Gemma 4 には「思考モード」があります。
答える前に、長い推論を内側で書きます。
ここが落とし穴でした。
最初は、JSON を出してと頼んでも出さない。
関数を書かせても途中で切れる。
私は「指示に従えないモデルだ」と書きかけました。
でも、立ち止まって一点だけ変えたところで気づきました。
崩れていたのではありません。
思考が、トークンの予算を食い尽くしていただけでした。
答えが出る前に、途中で切られていたのです。
max_tokens を十分に与える。
それだけで、同じ問題が全部きれいに通りました。
日常タスク(翻訳・要約・JSON・整形):
enable_thinking = False / max_tokens ≈ 1024
難しいタスク(数学・コード・長文):
enable_thinking = True / max_tokens = 4096
構造化出力(JSON)のときは、思考を切る。
これだけ守れば、もう振り回されません。
トークンは、けちらない。思考は、つけたままでいい。
硬い問題を、解かせてみた
競技数学を出しました。
答えは先にコードで出しておきます。
100万以下で、平方数または立方数だが6乗数でない数 → 1080
a+b=100, gcd(a,b)=5 の順序対 → 8
{1..12} の部分集合で和が4の倍数(空集合除く) → 1023
全部、正解でした。
特に最後の一問です。
Gemma は、自分から「1の冪根によるフィルタ」を使いました。
母関数を組み、i や −1 で評価して 0 を見抜き、4096÷4 から答えを出す。
競技勢が使う手筋です。
7GB のモデルが、これを自発的に出してきました。
コードは、暗記を避けて自作の問題を出し、生成されたコードをそのまま実行しました。
素数分割の DP: ランダム500ケース 全通過
重み付き区間スケジューリング: ランダム400ケース 全通過
暗記ではありません。
本当に、解いています。
前のモデルが崩れた問題に、耐えた
ここが、今回いちばん確かめたかったところです。
前回、VibeThinker はある問題で完全に崩れました。
私のソースコード3ファイル(約17K トークン)を渡し、ファイルをまたぐ追跡をさせたときです。
「探そう…そこには…でも読まないと…」のループに陥り、9000トークンを使い切って、答えませんでした。
同じ問題を、Gemma 4 E4B に渡しました。
崩れません。
数百トークンの思考で、関数がどこから呼ばれ何のために使われるかを、ファイルをまたいで正確に説明しました。
さらに負荷を上げます。
4ファイル・約27K トークン。
三段の追跡を聞きました。
Gemma は、私のコードの実際の一行をそのまま引用して答えました。
137秒、最後まで走り切り、崩れませんでした。
「賢い」と「長く保てる」は、別の話です。
窓が大きいことより、安定して使える作業記憶がどれだけあるか。
そこが、小モデルの本当の差です。
画像:読むだけでなく、検算してミスを見つける
このモデルは画像も読めます。
文字を読ませるだけでは終わりにしませんでした。
自作の棒グラフを見せ、前月比の最大と半年合計を聞きました。
6本の棒を全部読み取り、5つの差を全部計算し、答えはぴたりと合いました。
いちばん効いたのは、わざと合計を間違えた請求書です。
4品の本当の合計は7,930円。
私は記載をわざと8,930円にしておきました。
Gemma は自分で4品を足して7,930円を出し、記載の8,930円と突き合わせ、こう言いました。
一致しません。差額 +1,000円。
スクリーンショットや図表の検算。
これを、オフラインで、手元で、無料でやれます。
できないことも、正直に書きます
礼賛はしません。
明確な弱点があります。
日本語の「AI 臭」を消す推敲は、苦手でした。
硬い日本語を自然に直してと頼んでも、表面を入れ替えるだけでした。
文体を深く変える仕事は、まだ大きなモデルの仕事です。
スループットも速くありません。
26〜32 tok/s。
思考を入れて4Kトークンなら、一本に数十秒かかります。
低頻度やオフラインの補助に向いています。
リアルタイムの主力には向きません。
そして、これは OptiQ という有志の量子化版です。
Google 純正の int4 そのものではありません。
どのテストも数問だけです。
実力を確かめただけで、本番に出せると判断したわけではありません。
結論:モデルはコモディティ、価値は使い方
四つの検証を並べて、私の判断はこうです。
8GB のメモリに収まり、7GB でディスクに置けるローカルモデルが、競技数学を解き、27K のコードを安定して読み、画像を検算してミスを指摘する。
半年前なら、クラウドの大型モデルを呼ぶ仕事でした。
これは、私が最近ずっと言っていることと同じです。
モデルそのものが、消耗品になりつつあります。
無料でオフラインのローカルモデルでもここまでできるなら、「どのモデルか」は、もう堀になりません。
堀は、使い方にあります。トークンを十分与えるか、思考を入れるか、どの境界の問題に向けるか、出力を何で検証するか。
だから、向く仕事ははっきりします。
画像の構造化、オフラインの補助分析、ローカルでのコード読解、検証できる部分問題。
向かない仕事も、はっきりします。
公開記事の執筆(文体が足りません)、自動で最終判断する司令塔(遅く、そこは人が決めるべきです)。
「賢い」は、もう十分です。
次に問われるのは、誰がうまく使うか、です。
―― AI未来編集室「AIウォッチ」