0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【実測】7GB のローカル AI に、競技数学と自分のコードと請求書を食わせてみた ―― Gemma 4 E4B QAT にできること・できないこと

0
Posted at

最先端AIを技術の中身まで読み解く「AIウォッチ」の記事です。
初出:本サイト → https://aiwatch-jp.pages.dev/gemma4-e4b-qat-local

前回、1.74GB の VibeThinker-3B を手元で試しました。

強い解答エンジンでした。でも、長く複雑なタスクでは崩れました。

今回は、別の小モデルです。

Google の Gemma 4 E4B(QAT 版)。

結論から言います。

これは、崩れませんでした。

7GB のモデルが、競技数学を解き、私のコードを 27K トークンぶん読み切り、請求書の計算ミスまで指摘しました。

ただし、ひとつだけ覚えておきたい操作があります。

何を測ったか

モデルは mlx-community/gemma-4-e4b-it-qat-OptiQ-4bit

有効 4B 相当で、テキストも画像も扱えます。

手元の環境は Apple M5、MLX で動かしました。

ディスク: 7.0GB
ロード: 約2.7秒
速度: 26〜32 tok/s
ピークメモリ: 約8GB
完全ローカル・無料・オフライン

数字だけでは信じません。

暗記できない問題と、私自身の非公開コードと、自作の画像で、自分で確かめました。

解けるものはコードを実行して採点し、数学は答えを先に計算してから出しました。

覚えるべきは、たったひとつ

Gemma 4 には「思考モード」があります。

答える前に、長い推論を内側で書きます。

ここが落とし穴でした。

最初は、JSON を出してと頼んでも出さない。

関数を書かせても途中で切れる。

私は「指示に従えないモデルだ」と書きかけました。

でも、立ち止まって一点だけ変えたところで気づきました。

崩れていたのではありません。

思考が、トークンの予算を食い尽くしていただけでした。

答えが出る前に、途中で切られていたのです。

max_tokens を十分に与える。

それだけで、同じ問題が全部きれいに通りました。

日常タスク(翻訳・要約・JSON・整形):
  enable_thinking = False / max_tokens ≈ 1024
難しいタスク(数学・コード・長文):
  enable_thinking = True  / max_tokens = 4096

構造化出力(JSON)のときは、思考を切る。

これだけ守れば、もう振り回されません。

トークンは、けちらない。思考は、つけたままでいい。

硬い問題を、解かせてみた

競技数学を出しました。

答えは先にコードで出しておきます。

100万以下で、平方数または立方数だが6乗数でない数 → 1080
a+b=100, gcd(a,b)=5 の順序対 → 8
{1..12} の部分集合で和が4の倍数(空集合除く) → 1023

全部、正解でした。

特に最後の一問です。

Gemma は、自分から「1の冪根によるフィルタ」を使いました。

母関数を組み、i や −1 で評価して 0 を見抜き、4096÷4 から答えを出す。

競技勢が使う手筋です。

7GB のモデルが、これを自発的に出してきました。

コードは、暗記を避けて自作の問題を出し、生成されたコードをそのまま実行しました。

素数分割の DP: ランダム500ケース 全通過
重み付き区間スケジューリング: ランダム400ケース 全通過

暗記ではありません。

本当に、解いています。

前のモデルが崩れた問題に、耐えた

ここが、今回いちばん確かめたかったところです。

前回、VibeThinker はある問題で完全に崩れました。

私のソースコード3ファイル(約17K トークン)を渡し、ファイルをまたぐ追跡をさせたときです。

「探そう…そこには…でも読まないと…」のループに陥り、9000トークンを使い切って、答えませんでした。

同じ問題を、Gemma 4 E4B に渡しました。

崩れません。

数百トークンの思考で、関数がどこから呼ばれ何のために使われるかを、ファイルをまたいで正確に説明しました。

さらに負荷を上げます。

4ファイル・約27K トークン。

三段の追跡を聞きました。

Gemma は、私のコードの実際の一行をそのまま引用して答えました。

137秒、最後まで走り切り、崩れませんでした。

「賢い」と「長く保てる」は、別の話です。

窓が大きいことより、安定して使える作業記憶がどれだけあるか。

そこが、小モデルの本当の差です。

画像:読むだけでなく、検算してミスを見つける

このモデルは画像も読めます。

文字を読ませるだけでは終わりにしませんでした。

自作の棒グラフを見せ、前月比の最大と半年合計を聞きました。

6本の棒を全部読み取り、5つの差を全部計算し、答えはぴたりと合いました。

いちばん効いたのは、わざと合計を間違えた請求書です。

4品の本当の合計は7,930円。

私は記載をわざと8,930円にしておきました。

Gemma は自分で4品を足して7,930円を出し、記載の8,930円と突き合わせ、こう言いました。

一致しません。差額 +1,000円。

スクリーンショットや図表の検算。

これを、オフラインで、手元で、無料でやれます。

できないことも、正直に書きます

礼賛はしません。

明確な弱点があります。

日本語の「AI 臭」を消す推敲は、苦手でした。

硬い日本語を自然に直してと頼んでも、表面を入れ替えるだけでした。

文体を深く変える仕事は、まだ大きなモデルの仕事です。

スループットも速くありません。

26〜32 tok/s。

思考を入れて4Kトークンなら、一本に数十秒かかります。

低頻度やオフラインの補助に向いています。

リアルタイムの主力には向きません。

そして、これは OptiQ という有志の量子化版です。

Google 純正の int4 そのものではありません。

どのテストも数問だけです。

実力を確かめただけで、本番に出せると判断したわけではありません。

結論:モデルはコモディティ、価値は使い方

四つの検証を並べて、私の判断はこうです。

8GB のメモリに収まり、7GB でディスクに置けるローカルモデルが、競技数学を解き、27K のコードを安定して読み、画像を検算してミスを指摘する。

半年前なら、クラウドの大型モデルを呼ぶ仕事でした。

これは、私が最近ずっと言っていることと同じです。

モデルそのものが、消耗品になりつつあります。

無料でオフラインのローカルモデルでもここまでできるなら、「どのモデルか」は、もう堀になりません。

堀は、使い方にあります。トークンを十分与えるか、思考を入れるか、どの境界の問題に向けるか、出力を何で検証するか。

だから、向く仕事ははっきりします。

画像の構造化、オフラインの補助分析、ローカルでのコード読解、検証できる部分問題。

向かない仕事も、はっきりします。

公開記事の執筆(文体が足りません)、自動で最終判断する司令塔(遅く、そこは人が決めるべきです)。

「賢い」は、もう十分です。

次に問われるのは、誰がうまく使うか、です。

―― AI未来編集室「AIウォッチ」

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?