はじめに
ローカルLLM について、当初は M4 の Mac mini(ユニファイドメモリ 24GB)を使ってやっていたので、サイズ 16GB未満のモデルを探して試す、ということをやってきました。
その後、メモリ 16GB の M4 の MacBook Air を買ったので、サイズ 8GB以下くらいのモデルも試したりしています。直近だと、記事に書いたもので以下があります。
●M4 の MacBook Air でローカルLLM(2種): MLX版と公式の GGUF版の「Jan-v1-4B」をそれぞれ軽く試す(MLX LM と LM Studio を利用) - Qiita
https://qiita.com/youtoy/items/dc8818981b7baff5dc08
●M4 の MacBook Air で爆速なローカルLLM: GGUF版の「Gemma 3 270M」でシンプルな日本語のやりとり(LM Studio を利用) - Qiita
https://qiita.com/youtoy/items/ccebe67ec52a7b6a8c15
今回は、上記 1つ目の「Jan-v1-4B」のもとになっているらしいものと、そのモデルの同シリーズとなる「qwen3-4b」系を試してみます。
実行環境は、LM Studio と MLX LM を使います(GGUF版のモデルと MLX版のモデルを使います)。
実際に試してみる: LM Studio
ここから情報を見つつ、実際に試していきます。まずは、LM Studio でのお試しの話です。
LM Studio で使うモデル
今回、LM Studio で使うモデルは、LM Studio の Model Catalog で掲載されているものでは、以下 2つになります。
●qwen/qwen3-4b-thinking-2507 • LM Studio
https://lmstudio.ai/models/qwen/qwen3-4b-thinking-2507
●qwen/qwen3-4b-2507 • LM Studio
https://lmstudio.ai/models/qwen/qwen3-4b-2507
こちらの 2つ目のほうは、Qwen3 4B Instruct 2507 になるようです。
LM Studio上で検索して出てくるモデルのページ
上記を LM Studio上で検索した時に出てくるページを見てみます。Hugging Face上の lmstudio-community の GGUF版モデルのページになるのですが、2つのモデルのページはそれぞれ以下に該当します。
●lmstudio-community/Qwen3-4B-Thinking-2507-GGUF · Hugging Face
https://huggingface.co/lmstudio-community/Qwen3-4B-Thinking-2507-GGUF
●lmstudio-community/Qwen3-4B-Instruct-2507-GGUF · Hugging Face
https://huggingface.co/lmstudio-community/Qwen3-4B-Instruct-2507-GGUF
LM Studio で動作させた時の出力
上記 2種のモデルを LM Studio で動作させた時の出力を以下に掲載します。
qwen3-4b-thinking-2507
qwen3-4b-thinking-2507 のほうの情報で、「あなたは誰?」というプロンプトを試した時の内容になります。
こちらは推論モデルなので、推論のステップが入ってから最終出力が得られます。推論の情報のところでは「Thought for 28.39 seconds」という内容が出ました(約30秒ほどの推論が行われました)。
また、推論の後に得られた出力は、以下のとおりです。
p5.jsはWebブラウザで実行されるJavaScriptライブラリです。
インタラクティブなグラフィックやアニメーションの開発に特化しており、データ可視化などにも活用できます。
無料・オープンソースでインストール不要なので、初心者でも簡単にプロジェクトを作成可能です。
30.81 tok/sec
959 tokens
0.17s to first token
qwen3-4b-instruct-2507
今度は qwen3-4b-instruct-2507 のほうで、「あなたは誰?」というプロンプトを試した時の内容になります。
p5.jsは、JavaScriptで簡単にアニメーションやアートを作れるライブラリです。
マウスやキーボードなどの入力と連動できるため、インタラクティブな作品が作れます。
Webブラウザ上で即座に実行可能で、初心者にも最適です。
28.58 tok/sec
69 tokens
0.17s to first token
実際に試してみる: MLX LM
次に MLX LM の話です。
MLX LM で使うvモデル
Hugging Face上で、mlx-community が出している「qwen3-4b」系(2507)系のモデルを見てみます。
上記のように、主に量子化のところが異なるモデルが並んでいます。今回は 4bit の量子化のものを選びました。
●mlx-community/Qwen3-4B-Thinking-2507-4bit · Hugging Face
https://huggingface.co/mlx-community/Qwen3-4B-Thinking-2507-4bit
●mlx-community/Qwen3-4B-Instruct-2507-4bit · Hugging Face
https://huggingface.co/mlx-community/Qwen3-4B-Instruct-2507-4bit
MLX LM で動作させた時の出力
mlx-community/Qwen3-4B-Thinking-2507 と mlx-community/Qwen3-4B-Instruct-2507-4bit を使い、「あなたは誰?」というプロンプトで試した時の情報を載せてみます。
処理を実行するためのコマンドと処理結果のキャプチャ
今回のお試しで、処理を実行するために使ったコマンドは以下のとおりです。
mlx_lm.generate --model mlx-community/Qwen3-4B-Thinking-2507-4bit --prompt "あなたは誰?" --max-tokens 2048
mlx_lm.generate --model mlx-community/Qwen3-4B-Instruct-2507-4bit --prompt "あなたは誰?" --max-tokens 2048
上記の出力結果は、以下のとおりです(mlx-community/Qwen3-4B-Thinking-2507-4bit のほうは、推論の部分は画面外にはみ出しているのですが...)。
処理結果のテキスト版
2つのモデルを使った時の、最終出力の部分をそれぞれ示します。
こんにちは、私はQwenです。アリババグループ傘下の通義実験室が開発した大規模言語モデルです。質問に答えたり、物語やメール、スクリプトなどを作成したり、さまざまなタスクをサポートします。何かご質問があれば、いつでもお気軽にお知らせください!
==========
Prompt: 14 tokens, 105.269 tokens-per-sec
Generation: 687 tokens, 39.634 tokens-per-sec
Peak memory: 2.435 GB
==========
こんにちは!私はQwen(通義千問)です。アリババグループの通義実験室が独自に開発した大規模言語モデルです。私は自然言語処理、論理的推論、プログラミング、そして多様なタスクに精通しています。質問やお手伝いが必要な場合、いつでもお手伝いします!どうぞ、お気軽にお尋ねください。😊
==========
Prompt: 12 tokens, 88.645 tokens-per-sec
Generation: 98 tokens, 40.963 tokens-per-sec
Peak memory: 2.333 GB
さらに試してみた結果
さらに、プロンプトを「p5.jsを3行で説明して」という内容にしたコマンドと、コマンドの実行結果(最終出力部分)を以下に示します。
mlx_lm.generate --model mlx-community/Qwen3-4B-Thinking-2507-4bit --prompt "p5.jsを3行で説明して" --max-tokens 2048
mlx_lm.generate --model mlx-community/Qwen3-4B-Instruct-2507-4bit --prompt "p5.jsを3行で説明して" --max-tokens 2048
処理結果のテキスト版
2つのモデルを使った時の、最終出力の部分をそれぞれ示します。
p5.jsはブラウザで実行するJavaScriptライブラリで、インタラクティブなグラフィックやアニメーションを作成できます。
シンプルな構文(Processingに近い)で初心者でも簡単に視覚的なプロジェクトを開発可能です。
リアルタイムのビジュアルアートや教育用ツールなど、Web上のインタラクティブアプリケーション開発に適しています。
==========
Prompt: 21 tokens, 149.918 tokens-per-sec
Generation: 481 tokens, 38.723 tokens-per-sec
Peak memory: 2.380 GB
==========
p5.jsは、Web上で簡単に描画やアニメーションを作れるJavaScriptライブラリです。
シンプルなコードで図形や動的表現を実現でき、教育やアートに適しています。
無料で使えるため、初心者でもすぐに始められます。
==========
Prompt: 19 tokens, 131.441 tokens-per-sec
Generation: 60 tokens, 40.777 tokens-per-sec
Peak memory: 2.351 GB