M4 の MacBook Air でローカルLLM（2種）： MLX版と公式の GGUF版の「Jan-v1-4B」をそれぞれ軽く試す（MLX LM と LM Studio を利用）

Posted at 2025-08-13

はじめに

この記事は、過去にも色々と試してきているローカルLLM関連の話です。

技術情報のチェックと合わせて、ほぼ毎日に近いくらい確認している Hugging Face の MLX版モデル（主に「mlx-community (MLX Community)」のもの）を見ていたら、直近で加わっていたモデルの 1つを試してみます。

MLX Community のモデルで、一番最近、作成されていたのが Jan-v1-4B のシリーズでした。元のモデルに関する情報は、以下の公式アカウントのポストなどに書いてあります。

上記の公式のポストを見てみると、公式が出した GGUF版もあるようです。

ここで、今回試した 2つの内容を書いてみます。ざっくり書くと、以下の実行環境・モデルの組み合わせです。

まずは以下の「janhq/Jan-v1-4B-GGUF」を、LM Studio で試してみます。

モデルサイズは 2.5GB のようなので、自分が持ち運んで使っている M4 の MacBook Air（ユニファイドメモリ 16GB）でも余裕で動くサイズです。

Hugging Face上で GGUF版のモデルの情報を見てみると、上で動作を確認したものは量子化が 4bit のもののようです（他に、もっとモデルサイズが大きい 5bit、 6bit、 8bit があるようでした）。

以下に実行中の様子の動画を掲載します。プロンプトは「日本語で、生成AIについて8歳に分かるような内容で短く説明して」というものにしています。

最初に「Thinking...」という内容が出て、最終的には『生成AIは、あなたの言葉で新しい絵や物語をつくる「魔法のツール」です。例えば、「笑ってる猫」と言うと、かわいい絵ができます！』という応答を得られました。

以下の部分を見ると、推論の処理が 26.68秒だったようです。

また出力スピード・トータルの出力の情報は、以下となっていました。

次に、過去にもよく使っている MLX LM を使ったお試しです。

環境構築の話は、過去の自分の記事で何度も書いているので省略します。

利用するモデルは以下で、モデルサイズは 2.26GB です。

ちなみに 8bit のものでも、モデルサイズが 4.27GB のようなので、今回使っている M4 の MacBook Air（メモリ 16GB）でも余裕で動きそうです。

今回試した実行用のコマンドは、以下のとおりです。

mlx_lm.generate --model mlx-community/Jan-v1-4B-4bit --prompt "日本語で、生成AIについて8歳に分かるような内容で短く説明して" --max-tokens 2048

実行結果は以下のとおりです。

こちらは、出力スピード・トータルの出力の情報などは、以下となっていました。