軽量モデル「qwen3-4b」系（2507）2種の MLX版と GGUF版をそれぞれ軽く試す（MLX LM と LM Studio を利用）： M4 の MacBook Air でローカルLLM

Posted at 2025-08-19

はじめに

ローカルLLM について、当初は M4 の Mac mini（ユニファイドメモリ 24GB）を使ってやっていたので、サイズ 16GB未満のモデルを探して試す、ということをやってきました。

その後、メモリ 16GB の M4 の MacBook Air を買ったので、サイズ 8GB以下くらいのモデルも試したりしています。直近だと、記事に書いたもので以下があります。

●M4 の MacBook Air でローカルLLM（2種）： MLX版と公式の GGUF版の「Jan-v1-4B」をそれぞれ軽く試す（MLX LM と LM Studio を利用） - Qiita
　https://qiita.com/youtoy/items/dc8818981b7baff5dc08

●M4 の MacBook Air で爆速なローカルLLM： GGUF版の「Gemma 3 270M」でシンプルな日本語のやりとり（LM Studio を利用） - Qiita
　https://qiita.com/youtoy/items/ccebe67ec52a7b6a8c15

今回は、上記 1つ目の「Jan-v1-4B」のもとになっているらしいものと、そのモデルの同シリーズとなる「qwen3-4b」系を試してみます。

実行環境は、LM Studio と MLX LM を使います（GGUF版のモデルと MLX版のモデルを使います）。

実際に試してみる： LM Studio

ここから情報を見つつ、実際に試していきます。まずは、LM Studio でのお試しの話です。

LM Studio で使うモデル

今回、LM Studio で使うモデルは、LM Studio の Model Catalog で掲載されているものでは、以下 2つになります。

●qwen/qwen3-4b-thinking-2507 • LM Studio
　https://lmstudio.ai/models/qwen/qwen3-4b-thinking-2507

●qwen/qwen3-4b-2507 • LM Studio
　https://lmstudio.ai/models/qwen/qwen3-4b-2507

こちらの 2つ目のほうは、Qwen3 4B Instruct 2507 になるようです。

LM Studio上で検索して出てくるモデルのページ

上記を LM Studio上で検索した時に出てくるページを見てみます。Hugging Face上の lmstudio-community の GGUF版モデルのページになるのですが、2つのモデルのページはそれぞれ以下に該当します。

●lmstudio-community/Qwen3-4B-Thinking-2507-GGUF · Hugging Face
　https://huggingface.co/lmstudio-community/Qwen3-4B-Thinking-2507-GGUF

●lmstudio-community/Qwen3-4B-Instruct-2507-GGUF · Hugging Face
　https://huggingface.co/lmstudio-community/Qwen3-4B-Instruct-2507-GGUF

LM Studio で動作させた時の出力

上記 2種のモデルを LM Studio で動作させた時の出力を以下に掲載します。

qwen3-4b-thinking-2507

qwen3-4b-thinking-2507 のほうの情報で、「あなたは誰？」というプロンプトを試した時の内容になります。

こちらは推論モデルなので、推論のステップが入ってから最終出力が得られます。推論の情報のところでは「Thought for 28.39 seconds」という内容が出ました（約30秒ほどの推論が行われました）。

また、推論の後に得られた出力は、以下のとおりです。

p5.jsはWebブラウザで実行されるJavaScriptライブラリです。
インタラクティブなグラフィックやアニメーションの開発に特化しており、データ可視化などにも活用できます。
無料・オープンソースでインストール不要なので、初心者でも簡単にプロジェクトを作成可能です。

30.81 tok/sec
959 tokens
0.17s to first token

qwen3-4b-instruct-2507

今度は qwen3-4b-instruct-2507 のほうで、「あなたは誰？」というプロンプトを試した時の内容になります。

p5.jsは、JavaScriptで簡単にアニメーションやアートを作れるライブラリです。
マウスやキーボードなどの入力と連動できるため、インタラクティブな作品が作れます。
Webブラウザ上で即座に実行可能で、初心者にも最適です。

28.58 tok/sec
69 tokens
0.17s to first token

実際に試してみる： MLX LM

次に MLX LM の話です。

MLX LM で使うｖモデル

Hugging Face上で、mlx-community が出している「qwen3-4b」系（2507）系のモデルを見てみます。

上記のように、主に量子化のところが異なるモデルが並んでいます。今回は 4bit の量子化のものを選びました。

●mlx-community/Qwen3-4B-Thinking-2507-4bit · Hugging Face
　https://huggingface.co/mlx-community/Qwen3-4B-Thinking-2507-4bit

●mlx-community/Qwen3-4B-Instruct-2507-4bit · Hugging Face
　https://huggingface.co/mlx-community/Qwen3-4B-Instruct-2507-4bit

MLX LM で動作させた時の出力

mlx-community/Qwen3-4B-Thinking-2507 と mlx-community/Qwen3-4B-Instruct-2507-4bit を使い、「あなたは誰？」というプロンプトで試した時の情報を載せてみます。

処理を実行するためのコマンドと処理結果のキャプチャ

今回のお試しで、処理を実行するために使ったコマンドは以下のとおりです。

mlx_lm.generate --model mlx-community/Qwen3-4B-Thinking-2507-4bit --prompt "あなたは誰？" --max-tokens 2048

mlx_lm.generate --model mlx-community/Qwen3-4B-Instruct-2507-4bit --prompt "あなたは誰？" --max-tokens 2048

上記の出力結果は、以下のとおりです（mlx-community/Qwen3-4B-Thinking-2507-4bit のほうは、推論の部分は画面外にはみ出しているのですが...）。

処理結果のテキスト版

2つのモデルを使った時の、最終出力の部分をそれぞれ示します。

mlx-community/Qwen3-4B-Thinking-2507-4bit

こんにちは、私はQwenです。アリババグループ傘下の通義実験室が開発した大規模言語モデルです。質問に答えたり、物語やメール、スクリプトなどを作成したり、さまざまなタスクをサポートします。何かご質問があれば、いつでもお気軽にお知らせください！
==========
Prompt: 14 tokens, 105.269 tokens-per-sec
Generation: 687 tokens, 39.634 tokens-per-sec
Peak memory: 2.435 GB

mlx-community/Qwen3-4B-Instruct-2507-4bit

==========
こんにちは！私はQwen（通義千問）です。アリババグループの通義実験室が独自に開発した大規模言語モデルです。私は自然言語処理、論理的推論、プログラミング、そして多様なタスクに精通しています。質問やお手伝いが必要な場合、いつでもお手伝いします！どうぞ、お気軽にお尋ねください。😊
==========
Prompt: 12 tokens, 88.645 tokens-per-sec
Generation: 98 tokens, 40.963 tokens-per-sec
Peak memory: 2.333 GB

さらに試してみた結果

さらに、プロンプトを「p5.jsを3行で説明して」という内容にしたコマンドと、コマンドの実行結果（最終出力部分）を以下に示します。

mlx_lm.generate --model mlx-community/Qwen3-4B-Thinking-2507-4bit --prompt "p5.jsを3行で説明して" --max-tokens 2048

mlx_lm.generate --model mlx-community/Qwen3-4B-Instruct-2507-4bit --prompt "p5.jsを3行で説明して" --max-tokens 2048

処理結果のテキスト版

2つのモデルを使った時の、最終出力の部分をそれぞれ示します。

mlx-community/Qwen3-4B-Thinking-2507-4bit

p5.jsはブラウザで実行するJavaScriptライブラリで、インタラクティブなグラフィックやアニメーションを作成できます。
シンプルな構文（Processingに近い）で初心者でも簡単に視覚的なプロジェクトを開発可能です。
リアルタイムのビジュアルアートや教育用ツールなど、Web上のインタラクティブアプリケーション開発に適しています。
==========
Prompt: 21 tokens, 149.918 tokens-per-sec
Generation: 481 tokens, 38.723 tokens-per-sec
Peak memory: 2.380 GB

mlx-community/Qwen3-4B-Instruct-2507-4bit

==========
p5.jsは、Web上で簡単に描画やアニメーションを作れるJavaScriptライブラリです。
シンプルなコードで図形や動的表現を実現でき、教育やアートに適しています。
無料で使えるため、初心者でもすぐに始められます。
==========
Prompt: 19 tokens, 131.441 tokens-per-sec
Generation: 60 tokens, 40.777 tokens-per-sec
Peak memory: 2.351 GB

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up