0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

軽量モデル「qwen3-4b」系(2507)2種の MLX版と GGUF版をそれぞれ軽く試す(MLX LM と LM Studio を利用): M4 の MacBook Air でローカルLLM

Posted at

はじめに

ローカルLLM について、当初は M4 の Mac mini(ユニファイドメモリ 24GB)を使ってやっていたので、サイズ 16GB未満のモデルを探して試す、ということをやってきました。

その後、メモリ 16GB の M4 の MacBook Air を買ったので、サイズ 8GB以下くらいのモデルも試したりしています。直近だと、記事に書いたもので以下があります。

●M4 の MacBook Air でローカルLLM(2種): MLX版と公式の GGUF版の「Jan-v1-4B」をそれぞれ軽く試す(MLX LM と LM Studio を利用) - Qiita
 https://qiita.com/youtoy/items/dc8818981b7baff5dc08

●M4 の MacBook Air で爆速なローカルLLM: GGUF版の「Gemma 3 270M」でシンプルな日本語のやりとり(LM Studio を利用) - Qiita
 https://qiita.com/youtoy/items/ccebe67ec52a7b6a8c15

今回は、上記 1つ目の「Jan-v1-4B」のもとになっているらしいものと、そのモデルの同シリーズとなる「qwen3-4b」系を試してみます。

実行環境は、LM Studio と MLX LM を使います(GGUF版のモデルと MLX版のモデルを使います)。

実際に試してみる: LM Studio

ここから情報を見つつ、実際に試していきます。まずは、LM Studio でのお試しの話です。

LM Studio で使うモデル

今回、LM Studio で使うモデルは、LM Studio の Model Catalog で掲載されているものでは、以下 2つになります。

●qwen/qwen3-4b-thinking-2507 • LM Studio
 https://lmstudio.ai/models/qwen/qwen3-4b-thinking-2507

●qwen/qwen3-4b-2507 • LM Studio
 https://lmstudio.ai/models/qwen/qwen3-4b-2507

こちらの 2つ目のほうは、Qwen3 4B Instruct 2507 になるようです。

image.png

LM Studio上で検索して出てくるモデルのページ

上記を LM Studio上で検索した時に出てくるページを見てみます。Hugging Face上の lmstudio-community の GGUF版モデルのページになるのですが、2つのモデルのページはそれぞれ以下に該当します。

●lmstudio-community/Qwen3-4B-Thinking-2507-GGUF · Hugging Face
 https://huggingface.co/lmstudio-community/Qwen3-4B-Thinking-2507-GGUF

image.png

●lmstudio-community/Qwen3-4B-Instruct-2507-GGUF · Hugging Face
 https://huggingface.co/lmstudio-community/Qwen3-4B-Instruct-2507-GGUF

image.png

LM Studio で動作させた時の出力

上記 2種のモデルを LM Studio で動作させた時の出力を以下に掲載します。

qwen3-4b-thinking-2507

qwen3-4b-thinking-2507 のほうの情報で、「あなたは誰?」というプロンプトを試した時の内容になります。

こちらは推論モデルなので、推論のステップが入ってから最終出力が得られます。推論の情報のところでは「Thought for 28.39 seconds」という内容が出ました(約30秒ほどの推論が行われました)。

また、推論の後に得られた出力は、以下のとおりです。

p5.jsはWebブラウザで実行されるJavaScriptライブラリです。
インタラクティブなグラフィックやアニメーションの開発に特化しており、データ可視化などにも活用できます。
無料・オープンソースでインストール不要なので、初心者でも簡単にプロジェクトを作成可能です。

30.81 tok/sec
959 tokens
0.17s to first token

qwen3-4b-instruct-2507

今度は qwen3-4b-instruct-2507 のほうで、「あなたは誰?」というプロンプトを試した時の内容になります。

p5.jsは、JavaScriptで簡単にアニメーションやアートを作れるライブラリです。
マウスやキーボードなどの入力と連動できるため、インタラクティブな作品が作れます。
Webブラウザ上で即座に実行可能で、初心者にも最適です。

28.58 tok/sec
69 tokens
0.17s to first token

実際に試してみる: MLX LM

次に MLX LM の話です。

MLX LM で使うvモデル

Hugging Face上で、mlx-community が出している「qwen3-4b」系(2507)系のモデルを見てみます。

image.png

image.png

上記のように、主に量子化のところが異なるモデルが並んでいます。今回は 4bit の量子化のものを選びました。

●mlx-community/Qwen3-4B-Thinking-2507-4bit · Hugging Face
 https://huggingface.co/mlx-community/Qwen3-4B-Thinking-2507-4bit

●mlx-community/Qwen3-4B-Instruct-2507-4bit · Hugging Face
 https://huggingface.co/mlx-community/Qwen3-4B-Instruct-2507-4bit

MLX LM で動作させた時の出力

mlx-community/Qwen3-4B-Thinking-2507 と mlx-community/Qwen3-4B-Instruct-2507-4bit を使い、「あなたは誰?」というプロンプトで試した時の情報を載せてみます。

処理を実行するためのコマンドと処理結果のキャプチャ

今回のお試しで、処理を実行するために使ったコマンドは以下のとおりです。

mlx_lm.generate --model mlx-community/Qwen3-4B-Thinking-2507-4bit --prompt "あなたは誰?" --max-tokens 2048
mlx_lm.generate --model mlx-community/Qwen3-4B-Instruct-2507-4bit --prompt "あなたは誰?" --max-tokens 2048

上記の出力結果は、以下のとおりです(mlx-community/Qwen3-4B-Thinking-2507-4bit のほうは、推論の部分は画面外にはみ出しているのですが...)。

image.png

処理結果のテキスト版

2つのモデルを使った時の、最終出力の部分をそれぞれ示します。

mlx-community/Qwen3-4B-Thinking-2507-4bit
こんにちは、私はQwenです。アリババグループ傘下の通義実験室が開発した大規模言語モデルです。質問に答えたり、物語やメール、スクリプトなどを作成したり、さまざまなタスクをサポートします。何かご質問があれば、いつでもお気軽にお知らせください!
==========
Prompt: 14 tokens, 105.269 tokens-per-sec
Generation: 687 tokens, 39.634 tokens-per-sec
Peak memory: 2.435 GB
mlx-community/Qwen3-4B-Instruct-2507-4bit
==========
こんにちは!私はQwen(通義千問)です。アリババグループの通義実験室が独自に開発した大規模言語モデルです。私は自然言語処理、論理的推論、プログラミング、そして多様なタスクに精通しています。質問やお手伝いが必要な場合、いつでもお手伝いします!どうぞ、お気軽にお尋ねください。😊
==========
Prompt: 12 tokens, 88.645 tokens-per-sec
Generation: 98 tokens, 40.963 tokens-per-sec
Peak memory: 2.333 GB

さらに試してみた結果

さらに、プロンプトを「p5.jsを3行で説明して」という内容にしたコマンドと、コマンドの実行結果(最終出力部分)を以下に示します。

mlx_lm.generate --model mlx-community/Qwen3-4B-Thinking-2507-4bit --prompt "p5.jsを3行で説明して" --max-tokens 2048
mlx_lm.generate --model mlx-community/Qwen3-4B-Instruct-2507-4bit --prompt "p5.jsを3行で説明して" --max-tokens 2048

image.png

処理結果のテキスト版

2つのモデルを使った時の、最終出力の部分をそれぞれ示します。

mlx-community/Qwen3-4B-Thinking-2507-4bit
p5.jsはブラウザで実行するJavaScriptライブラリで、インタラクティブなグラフィックやアニメーションを作成できます。
シンプルな構文(Processingに近い)で初心者でも簡単に視覚的なプロジェクトを開発可能です。
リアルタイムのビジュアルアートや教育用ツールなど、Web上のインタラクティブアプリケーション開発に適しています。
==========
Prompt: 21 tokens, 149.918 tokens-per-sec
Generation: 481 tokens, 38.723 tokens-per-sec
Peak memory: 2.380 GB
mlx-community/Qwen3-4B-Instruct-2507-4bit
==========
p5.jsは、Web上で簡単に描画やアニメーションを作れるJavaScriptライブラリです。
シンプルなコードで図形や動的表現を実現でき、教育やアートに適しています。
無料で使えるため、初心者でもすぐに始められます。
==========
Prompt: 19 tokens, 131.441 tokens-per-sec
Generation: 60 tokens, 40.777 tokens-per-sec
Peak memory: 2.351 GB
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?