【実測】7GB のローカル AI に、競技数学と自分のコードと請求書を食わせてみた ―― Gemma 4 E4B QAT にできること・できないこと

Posted at 2026-06-19

最先端AIを技術の中身まで読み解く「AIウォッチ」の記事です。
初出：本サイト → https://aiwatch-jp.pages.dev/gemma4-e4b-qat-local

前回、1.74GB の VibeThinker-3B を手元で試しました。

強い解答エンジンでした。でも、長く複雑なタスクでは崩れました。

今回は、別の小モデルです。

Google の Gemma 4 E4B（QAT 版）。

結論から言います。

これは、崩れませんでした。

7GB のモデルが、競技数学を解き、私のコードを 27K トークンぶん読み切り、請求書の計算ミスまで指摘しました。

ただし、ひとつだけ覚えておきたい操作があります。

何を測ったか

モデルは mlx-community/gemma-4-e4b-it-qat-OptiQ-4bit。

有効 4B 相当で、テキストも画像も扱えます。

手元の環境は Apple M5、MLX で動かしました。

ディスク: 7.0GB
ロード: 約2.7秒
速度: 26〜32 tok/s
ピークメモリ: 約8GB
完全ローカル・無料・オフライン

数字だけでは信じません。

暗記できない問題と、私自身の非公開コードと、自作の画像で、自分で確かめました。

解けるものはコードを実行して採点し、数学は答えを先に計算してから出しました。

覚えるべきは、たったひとつ

Gemma 4 には「思考モード」があります。

答える前に、長い推論を内側で書きます。

ここが落とし穴でした。

最初は、JSON を出してと頼んでも出さない。

関数を書かせても途中で切れる。

私は「指示に従えないモデルだ」と書きかけました。

でも、立ち止まって一点だけ変えたところで気づきました。

崩れていたのではありません。

思考が、トークンの予算を食い尽くしていただけでした。

答えが出る前に、途中で切られていたのです。

max_tokens を十分に与える。

それだけで、同じ問題が全部きれいに通りました。

日常タスク（翻訳・要約・JSON・整形）:
  enable_thinking = False / max_tokens ≈ 1024
難しいタスク（数学・コード・長文）:
  enable_thinking = True  / max_tokens = 4096

構造化出力（JSON）のときは、思考を切る。

これだけ守れば、もう振り回されません。

トークンは、けちらない。思考は、つけたままでいい。

硬い問題を、解かせてみた

競技数学を出しました。

答えは先にコードで出しておきます。

100万以下で、平方数または立方数だが6乗数でない数 → 1080
a+b=100, gcd(a,b)=5 の順序対 → 8
{1..12} の部分集合で和が4の倍数（空集合除く） → 1023

全部、正解でした。

特に最後の一問です。

Gemma は、自分から「1の冪根によるフィルタ」を使いました。

母関数を組み、i や −1 で評価して 0 を見抜き、4096÷4 から答えを出す。

競技勢が使う手筋です。

7GB のモデルが、これを自発的に出してきました。

コードは、暗記を避けて自作の問題を出し、生成されたコードをそのまま実行しました。

素数分割の DP: ランダム500ケース 全通過
重み付き区間スケジューリング: ランダム400ケース 全通過

暗記ではありません。

本当に、解いています。

前のモデルが崩れた問題に、耐えた

ここが、今回いちばん確かめたかったところです。

前回、VibeThinker はある問題で完全に崩れました。

私のソースコード3ファイル（約17K トークン）を渡し、ファイルをまたぐ追跡をさせたときです。

「探そう…そこには…でも読まないと…」のループに陥り、9000トークンを使い切って、答えませんでした。

同じ問題を、Gemma 4 E4B に渡しました。

崩れません。

数百トークンの思考で、関数がどこから呼ばれ何のために使われるかを、ファイルをまたいで正確に説明しました。

さらに負荷を上げます。

4ファイル・約27K トークン。

三段の追跡を聞きました。

Gemma は、私のコードの実際の一行をそのまま引用して答えました。

137秒、最後まで走り切り、崩れませんでした。

「賢い」と「長く保てる」は、別の話です。

窓が大きいことより、安定して使える作業記憶がどれだけあるか。

そこが、小モデルの本当の差です。

画像：読むだけでなく、検算してミスを見つける

このモデルは画像も読めます。

文字を読ませるだけでは終わりにしませんでした。

自作の棒グラフを見せ、前月比の最大と半年合計を聞きました。

6本の棒を全部読み取り、5つの差を全部計算し、答えはぴたりと合いました。

いちばん効いたのは、わざと合計を間違えた請求書です。

4品の本当の合計は7,930円。

私は記載をわざと8,930円にしておきました。

Gemma は自分で4品を足して7,930円を出し、記載の8,930円と突き合わせ、こう言いました。

一致しません。差額 +1,000円。

スクリーンショットや図表の検算。

これを、オフラインで、手元で、無料でやれます。

できないことも、正直に書きます

礼賛はしません。

明確な弱点があります。

日本語の「AI 臭」を消す推敲は、苦手でした。

硬い日本語を自然に直してと頼んでも、表面を入れ替えるだけでした。

文体を深く変える仕事は、まだ大きなモデルの仕事です。

スループットも速くありません。

26〜32 tok/s。

思考を入れて4Kトークンなら、一本に数十秒かかります。

低頻度やオフラインの補助に向いています。

リアルタイムの主力には向きません。

そして、これは OptiQ という有志の量子化版です。

Google 純正の int4 そのものではありません。

どのテストも数問だけです。

実力を確かめただけで、本番に出せると判断したわけではありません。

結論：モデルはコモディティ、価値は使い方

四つの検証を並べて、私の判断はこうです。

8GB のメモリに収まり、7GB でディスクに置けるローカルモデルが、競技数学を解き、27K のコードを安定して読み、画像を検算してミスを指摘する。

半年前なら、クラウドの大型モデルを呼ぶ仕事でした。

これは、私が最近ずっと言っていることと同じです。

モデルそのものが、消耗品になりつつあります。

無料でオフラインのローカルモデルでもここまでできるなら、「どのモデルか」は、もう堀になりません。

堀は、使い方にあります。トークンを十分与えるか、思考を入れるか、どの境界の問題に向けるか、出力を何で検証するか。

だから、向く仕事ははっきりします。

画像の構造化、オフラインの補助分析、ローカルでのコード読解、検証できる部分問題。

向かない仕事も、はっきりします。

公開記事の執筆（文体が足りません）、自動で最終判断する司令塔（遅く、そこは人が決めるべきです）。

「賢い」は、もう十分です。

次に問われるのは、誰がうまく使うか、です。

―― AI未来編集室「AIウォッチ」

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up