推論を捨てた230MのLFM2.5、スマホCPUで毎秒213トークン出す

Posted at 2026-07-01

大きいモデルほど賢い、という前提でここ数年の競争は動いてきた。だからLiquid AIが6月下旬に出した最小モデル LFM2.5-230M のモデルカードにある一文は、逆張りに見える。

高度な数学、コード生成、創作のような推論負荷の高い用途には推奨しない

230M(2億3000万)パラメータ。今どきのフラッグシップが数百B(数千億)を当たり前に積む中で、その1000分の1以下だ。しかもメーカー自身が「難しいことはさせるな」と言う。ではこれは何のためのモデルなのか。ここを掴むと、小型モデルの使いどころが去年までとは変わってきていることが見えてくる。

「賢さ」ではなく「その場で動くこと」に全振りする

LFM2.5-230M が狙うのは、クラウドに投げずデバイスの上だけで完結するエージェント処理だ。具体的には、自然言語の指示を受けて構造化データを抜き出す(data extraction)、あるいは指示をツール呼び出しの列に分解する、といった軽量なタスクに絞っている。

実測値がこの設計思想を裏付けている。4bit量子化・2Kコンテキストでの計測で、CPUだけでここまで出る。

デバイス	メモリ	プレフィル	デコード
Raspberry Pi 5	293 MB	523 tok/s	42 tok/s
Galaxy S25 Ultra (Snapdragon Gen4)	375 MB	1,158 tok/s	213 tok/s

数百MBに収まり、Raspberry Pi でも動く。スマホのCPU(GPUやNPUではない)で毎秒200トークンを超えるのは、体感でいえば人が読むより速く文章が流れる速度だ。GPUを持たない機器で、常時起動のアシスタントを回せる水準に来ている、というのがこの数字の意味になる。

なぜここまで軽く速いのか。中身は14層で、うち8層が double-gated LIV convolution ブロック、残り6層が grouped-query attention(GQA)ブロックという構成になっている(モデルカード記載)。全部を注意機構(Attention)にせず、系列方向の処理の大半を畳み込み系のブロックに任せるハイブリッド構成だ。Attentionは系列長に対して計算とメモリが二乗で膨らむのが弱点で、そこを畳み込みで肩代わりさせることで、長めの入力でもメモリと速度が破綻しにくい。エッジ向けにこの形を選んでいるのは理にかなっている。

4倍サイズを一部で上回る、その「一部」が肝

Liquid AI は、データ抽出のような特定タスクで自分の4倍規模のモデルを上回ると主張している。比較対象は Alibaba の Qwen3.5-0.8B(8億)と Google の Gemma 3 1B(10億)だ。公式ブログのベンチマーク表から抜き出すとこうなる。

ベンチマーク	LFM2.5-230M	Qwen3.5-0.8B	Gemma 3 1B
IFEval(指示追従)	71.71	59.94	63.49
IFBench	38.40	22.87	20.33
BFCLv4(関数呼び出し)	21.03	18.70	7.17
GPQA Diamond(理系難問)	25.41	27.41	23.89

注目すべきは表の内訳だ。指示追従(IFEval)や関数呼び出し(BFCLv4)ではサイズ上のモデルを明確に抜く一方、理系の難問を問う GPQA Diamond では 0.8B の Qwen にわずかに負けている。つまりこのモデルは全方位で勝っているのではなく、「指示を正確に受けてツールを叩く」能力に予算を集中投下し、知識推論はあえて捨てている。冒頭の「推論用途には推奨しない」という但し書きは、性能の言い訳ではなく設計上の割り切りの宣言だと読むのが正しい。

エージェントの部品としての実像を見せているのが、Unitree の人型ロボット G1 に載せたデモだ。オンボードの NVIDIA Jetson Orin 上で LFM2.5-230M を動かし、一つの自然言語の指示を、NVIDIA の SONIC フレームワークが持つ訓練済みの低レベル動作(歩行や片膝立ちなど)の呼び出し列に分解させている。モデル本体は動作を生成せず、あくまで「どのスキルをどの順で呼ぶか」を決めるスキル選択レイヤーに徹する。230M が担うのはそこだけでいい、という割り切りが、ロボットという文脈だとかえって分かりやすい。

手元で動かす

学習トークンは19兆、コンテキスト長は32,768、語彙は65,536、対応言語は日本語を含む10言語で、知識のカットオフは2024年半ば。ライセンスは LFM1.0 のオープンウェイトで、Hugging Face から重みを直接落とせる。Transformers なら 5.0.0 以降で読める。

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("LiquidAI/LFM2.5-230M")
tokenizer = AutoTokenizer.from_pretrained("LiquidAI/LFM2.5-230M")

チャットテンプレートは <|im_start|> / <|im_end|> を使う ChatML 系。生成は temperature 0.1、top_k 50、repetition penalty 1.05 が推奨値だ。抽出やツール呼び出しが主眼なので、温度を低く固定して揺らぎを抑える設定になっている。

スマホや Raspberry Pi で回すなら量子化済みの LFM2.5-230M-GGUF を llama.cpp に食わせるのが早い。ほかに MLX(Apple Silicon)、vLLM、SGLang、ONNX に初日から対応していて、エッジからGPUサーバーまで同じ重みを持ち回せるのは実務では地味に効く。

この 230M を、汎用チャットの代替として測るとがっかりする。数学もコードも書けない。だが見方を変えれば、「クラウド往復のレイテンシと通信コストとプライバシーを、抽出やルーティングのような定型処理から丸ごと消す」ための部品として、これはかなり実用的な選択肢だ。大きなモデルに何でも投げる発想の裏で、決まった仕事を端末で閉じて速く安く回す層が確実に立ち上がっている。その最前線がついに数百MBまで降りてきた、というのが今回のいちばんの意味だと思う。

一次ソースは以下。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up