6
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

M4 の MacBook Air でローカルLLM(2種): MLX版と公式の GGUF版の「Jan-v1-4B」をそれぞれ軽く試す(MLX LM と LM Studio を利用)

Posted at

はじめに

この記事は、過去にも色々と試してきているローカルLLM関連の話です。

技術情報のチェックと合わせて、ほぼ毎日に近いくらい確認している Hugging Face の MLX版モデル(主に「mlx-community (MLX Community)」のもの)を見ていたら、直近で加わっていたモデルの 1つを試してみます。

Jan-v1-4B について

MLX Community のモデルで、一番最近、作成されていたのが Jan-v1-4B のシリーズでした。元のモデルに関する情報は、以下の公式アカウントのポストなどに書いてあります。

上記の公式のポストを見てみると、公式が出した GGUF版もあるようです。

image.png

実際に試したもの

ここで、今回試した 2つの内容を書いてみます。ざっくり書くと、以下の実行環境・モデルの組み合わせです。

  1. LM Studio でモデル「janhq/Jan-v1-4B-GGUF」を利用
  2. MLX LM でモデル「mlx-community/Jan-v1-4B-4bit」を利用
     

LM Studio で「janhq/Jan-v1-4B-GGUF」

まずは以下の「janhq/Jan-v1-4B-GGUF」を、LM Studio で試してみます。

●janhq/Jan-v1-4B-GGUF · Hugging Face
 https://huggingface.co/janhq/Jan-v1-4B-GGUF

image.png

モデルサイズは 2.5GB のようなので、自分が持ち運んで使っている M4 の MacBook Air(ユニファイドメモリ 16GB)でも余裕で動くサイズです。

Hugging Face上で GGUF版のモデルの情報を見てみると、上で動作を確認したものは量子化が 4bit のもののようです(他に、もっとモデルサイズが大きい 5bit、 6bit、 8bit があるようでした)。

image.png

実行結果:LM Studio で「janhq/Jan-v1-4B-GGUF」

以下に実行中の様子の動画を掲載します。プロンプトは「日本語で、生成AIについて8歳に分かるような内容で短く説明して」というものにしています。

最初に「Thinking...」という内容が出て、最終的には『生成AIは、あなたの言葉で新しい絵や物語をつくる「魔法のツール」です。例えば、「笑ってる猫」と言うと、かわいい絵ができます!』という応答を得られました。

以下の部分を見ると、推論の処理が 26.68秒だったようです。

image.png

また出力スピード・トータルの出力の情報は、以下となっていました。

  • 26.61 tok/sec
  • 761 tokens

MLX LM で「mlx-community/Jan-v1-4B-4bit」

次に、過去にもよく使っている MLX LM を使ったお試しです。

環境構築の話は、過去の自分の記事で何度も書いているので省略します。

利用するモデルは以下で、モデルサイズは 2.26GB です。

●mlx-community/Jan-v1-4B-4bit · Hugging Face
 https://huggingface.co/mlx-community/Jan-v1-4B-4bit

image.png

ちなみに 8bit のものでも、モデルサイズが 4.27GB のようなので、今回使っている M4 の MacBook Air(メモリ 16GB)でも余裕で動きそうです。

●mlx-community/Jan-v1-4B-8bit · Hugging Face
 https://huggingface.co/mlx-community/Jan-v1-4B-8bit

image.png

実行用のコマンド

今回試した実行用のコマンドは、以下のとおりです。

mlx_lm.generate --model mlx-community/Jan-v1-4B-4bit --prompt "日本語で、生成AIについて8歳に分かるような内容で短く説明して" --max-tokens 2048

実行結果:MLX LM で「mlx-community/Jan-v1-4B-4bit」

実行結果は以下のとおりです。

こちらは、出力スピード・トータルの出力の情報などは、以下となっていました。

  • Prompt: 28 tokens, 162.942 tokens-per-sec
  • Generation: 552 tokens, 34.880 tokens-per-sec
  • Peak memory: 2.434 GB
6
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?