はじめに
Gemma 4 が登場した際、いつも通り、「とりあえず軽く動かしてみる & 記事を書く」というのをやっていました。具体的には以下の記事に書いている内容で、「実行環境 LM Studio + GGUF版モデル」という組み合わせでした。
●ローカルLLM:「Gemma 4」を LM Studio で少し動かしてみる(環境は メモリ32GB の M5 の MacBook Pro) - Qiita
https://qiita.com/youtoy/items/80c3c139475db1a90408
以下は、その当時の公式の関連ポストです。
LMStudio で MLX版の Gemma 4 を動かす
今回の内容
その後、MLX版のモデルも出てきたという話があって、とりあえず LM Studio上でダウンロードしていました。しかし、LM Studio の環境においては、ランタイムが MLX版の Gemma 4 に対応していない状態が続いていて、処理を実行してもエラーが出る状態でした。
具体的には以下のようなエラーが出ていました(他の実行環境であれば MLX版モデルが使えたりもしましたが)。
LMStudio での MLX用ランタイムのアップデート
そんな状態が続いていた中、4/15 に LM Studio を立ち上げたところ、以下のようにランタイムのアップデートが行われたという表示が出てきました。
「Gemma 4 Support」という記載もあるので、MLX版の Gemma 4 を動かせるようになったというのが期待できます。それで実際に LMStudio で、MLX版の Gemma 4 を少し動かしてみました。
利用したモデルと処理の動作について
今回利用したモデルは、上でも少し掲載していた mlx-community/gemma-4-26b-a4b-it-4bit です。
モデルサイズは 16GB弱というところです。今回、自分は M5 MacBook Pro(メモリ 32GB)を使っていて、メモリのうち VRAM として使えるのが以下のとおり 25GB ほどなので、VRAM のみでモデルを扱えそうです。
実際に処理を行った結果
結論から書くと、LMStudio で MLX版の Gemma 4 がサクッと動きました。以下は、簡単な 1往復のやりとりをした際の結果の画面です。
出力速度は、41.34トークン/秒でした。
冒頭に掲載した記事に書いていた GGUF版のモデルと今回の MLX版のモデルについて、できることを比較すると、以下の LM Studio上の表示にも表れているように MLX版は Reasoning はないようでした。
【追記】 Google の MLX版モデル
上記の内容を進めるにあたり、 mlx-community/gemma-4-26b-a4b-it-4bit を使っていました。
Google が提供するモデルのほうでも、LM Studio上で以下のように MLX版が選べるようです。







