[oMLX] MacでローカルLLMを動かすならこれでいいかも

Posted at 2026-03-24

はじめに

以前、MacでローカルLLMを動かすならvllm-mlxで良いという記事を書きましたが、
そのvllm-mlxを超えそうなものがでてきました。

oMLXです

oMLX

oMLXも実はvllm-mlxから派生したものらしいので、系統としては似ています。

oMLX started from vllm-mlx v0.1.0 and evolved significantly with multi-model serving, tiered KV caching, VLM with full paged cache support, an admin panel, and a macOS menu bar app

良いところ

GUIの管理画面があるのでCLIが苦手でも使える
- もちろんCLIからもサーバー起動できる
vllm-mlxではオンメモリキャッシュに対応していなかったQwen3.5がちゃんとオンメモリキャッシュで使える
LLMのランタイムとしてだけでなく、モデルの量子化を最適化するメソッドの確立など、オーナーの熱量が凄い

oQ (oMLX universal dynamic quantization)

MLX向けの新しい量子化メソッドoQが公開されました

oQ は Apple Silicon 上で動作するデータ駆動型の mixed‑precision quantization システム
標準の mlx‑lm safetensors 互換モデルを作成し、oMLX、mlx‑lm などあらゆる推論サーバで動作する
各レイヤーの量子化感度を測定し、感度に応じてビット数を割り当てることで、oQ2～oQ8 の 7 つのレベルで既存手法（mlx‑lm）より大幅に精度を向上させている

ドキュメントにあるベンチマークを引用

Benchmark	Samples	2-bit		3-bit		4-bit
Benchmark	Samples	mlx-lm	oQ	mlx-lm	oQ	mlx-lm	oQ
MMLU	300	14.0%	64.0%	76.3%	85.0%	79.7%	83.3%
TRUTHFULQA	300	17.0%	80.0%	81.7%	86.7%	87.7%	88.0%
HUMANEVAL	164 (full)	0.0%	78.0%	84.8%	86.6%	87.2%	85.4%
MBPP	300	0.3%	63.3%	69.0%	72.0%	71.7%	74.3%

2bitの精度改善は凄まじく、oQ3bitとmlx4bitがほとんど同等になっています。

執筆時点で公式から出ている量子化モデルを見た感じ、ファイルサイズもかなり小さいのが良い。

モデル	ファイルサイズ
mlx-community/Qwen3.5-35B-A3B-4bit	19.0 GB
Jundot/Qwen3.5-35B-A3B-oQ3	15.6 GB

RAMが少ない端末でも動かしやすくなるだろうし、推論も多少早まるはず。

oMLXのインストール

リポジトリのReleasesにあるdmgをダウンロードし、
通常のアプリと同じようにインストールするだけ

初期セットアップもほとんどない (好きなPortとAPI Keyを設定する程度) のですぐ使えます。

〆

vllm-mlxは非常に良いアイデアで優れたランタイムですが、
oMLXが開発速度、熱量により先を行きそうな雰囲気があります。

CLIが苦手な人でも簡単に使えるので、
ローカルLLMが気になる人は一度試してみると良いかと。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up