32GBメモリで 7B から 32B まで試してみた結果とベストモデルをご紹介します
はじめに
2025年10月、Apple M5 チップが満を持して登場しました。
AI処理性能の大幅な向上が発表されていますが、実際のところ、ローカルLLMはどこまで快適に動くのか?
本記事では、M5 MacBook Pro(32GB)で実際に試してみた結果をまとめます。
なぜローカルLLMなのか
まず、なぜ自分がローカルLLMを使おうと思ったのか、その理由を書いておきます。
セキュリティ面での安心感
開発作業をしていると、どうしても 外部サービスに送りたくない情報 が出てきます。
例えば:
- IPアドレスやネットワーク情報
- ペンテストの結果や脆弱性情報
- 社内のコードやドキュメント
- クライアントの情報
こういった情報をクラウドLLMに送るのは、どうしてもリスクがあります。
間違っても共有されたくないデータは、やはりローカルで処理したい。
トークン数を気にせず使える
もう一つの大きなメリットは、トークン制限を気にしなくていいこと。
長いコードやドキュメントを分析したいとき、クラウドサービスだと:
- トークン制限に引っかかる
- コストが気になる
- 何度も分割して送る手間
ローカルなら、これらを気にせず自由に使えます。
エディタの使い分け:Cursor と VSCode
実は最初、Cursor でローカルLLMを使おうと思っていました。
しかし、Cursor ではLLMをチャットのように対話的に使うことが難しいという問題がありました。以前はうまく行ったという記事も散見されましたが、Cursorの方針が変わったのか、どうかわかりませんが、色々試した結果うまくいきませんでした。成功したという方がいらっしゃったら、ぜひお話を伺いたいです。
そこで、VSCode をローカルLLM専用のエディタとして使い分けることにしました。
使い分けのイメージ:
- Cursor:通常の開発作業、クラウドLLMを使った作業
- VSCode + Continue:ローカルLLM専用、セキュアな作業
この使い分けによって、セキュリティが必要な作業とそうでない作業を明確に分離できます。
というわけでローカルLLM環境の構築へ
セキュリティ、使い勝手、そしてエディタの使い分けという観点から、ローカルLLM環境を整えることにしました。
そして、先日発売されたばかりのM5 MacBook Pro を使って「期待の新チップでどこまで快適に使えるのか?」を試してみることにしました。
検証環境
- Mac: Apple Silicon M5 MacBook Pro 2025
- メモリ: 32GB
- ストレージ: 1TB
- 実行環境: Ollama 0.13.0(公式ドキュメント)
- VSCode拡張: Continue
- 検証期間: 数日〜数週間、実際に開発作業で使用
検証の目的
M5 チップに期待されるのは、従来より大きなモデルを快適に動かせる性能です。
今回試してみたかったこと:
- M5 は 14〜16B クラスを快適に動かせるか?
- 22B〜32B の大規模モデルは実用的か?
- 結局どのモデルが一番使いやすいか?
まだ使い込んでいるわけではありませんが、複数のコーディング特化LLMを実際に試した感想をまとめます。
試した結果:M5 でのモデル別の感想
モデル選定の経緯
実は最初、Qwen や DeepSeek は避けようと思っていました。
理由は、DeepSeek での脆弱性の問題が話題になったことがあったからです。
ローカルで動かす分には大丈夫だと思いつつも、できれば避けられる危険は避けたいという考えから、まずは欧米圏のコード生成に強いモデルを探しました。
そこで試したのが StarCoder 系や Codestral です。
しかし、期待した結果は得られませんでした。
❌ StarCoder / StarCoder2 系(7〜15B)
試したモデル:
- starcoder2:15b
- starcoder2:7b
M5 での使用感:
- 推論速度:◎ かなり速い
- 応答品質:× 不安定
- 実用性:× 開発用途では厳しい
詳細:
M5 のおかげで応答自体は素早く返ってきます。
ただ、出力が途中でおかしくなる、指示を理解してくれない、会話の流れを忘れるなど、品質面で不安が残りました。
感想:
速いのは良いんですが、出力の質が安定しなくて開発作業には使いづらいというのが正直なところです。
△ Codestral(22B / 32B)
試したモデル:
- codestral:22b-v0.1-q4_K_M
- codestral:latest (32B)
M5 での使用感:
- 推論速度:△ 結構待たされる
- 応答品質:◎ かなり良い
- 実用性:△ 重い
詳細:
回答の質は確かに良いです。コード生成の精度も高く感じました。
ただ、32GBメモリだと明らかに重いです。
応答を待つ時間が長くて、作業のテンポが崩れる感じがしました。
M5 の印象:
M5 32GBでも、22B以上のモデルを32GBで快適に動かすのは難しいと感じました。
感想:
品質は良いんですが、実際の作業で使うには待ち時間がストレスになります。64GB以上あれば違うのかもしれません。
背に腹は代えられず:Qwen と DeepSeek を試す
StarCoder 系は動きがおかしく、会話が壊れている。
Codestral は重すぎて使えない。
欧米圏のモデルで実用的なものが見つからないという状況になり、背に腹は代えられず、Qwen と DeepSeek を試してみることにしました。
正直なところ、セキュリティ面での懸念は残ります。
ただ、ローカルで動かす分には外部に情報が送られることはないはずですし、何より実用できないモデルでは意味がないと判断しました。
✅ DeepSeek Coder v2 16B Lite
モデル: deepseek-coder-v2:16b-lite-instruct-q4_K_M
M5 での使用感:
- 推論速度:◎ かなり快適
- 応答品質:◎ 安定している
- 実用性:◎ 普通に使える
詳細:
- モデルサイズ:約10GB
- 待たされる感じがあまりない
- 会話が自然に続く
- コード生成も安定している
- コード補完の精度も悪くない
M5 の印象:
16B クラスは M5 と相性が良い感じがします。処理速度と応答品質のバランスが取れています。
感想:
M5 + 32GB で普通に快適に使えるレベルです。開発作業でストレスは感じませんでした。
✅ Qwen2.5 Coder 14B(個人的ベスト)
モデル: qwen2.5-coder:14b-instruct
M5 での使用感:
- 推論速度:◎◎ 非常に速い
- 応答品質:◎◎ かなり高品質
- 実用性:◎◎ 一番使いやすい
詳細:
- モデルサイズ:約9GB
- 推論速度が非常に速い(待たされる感覚がほぼない)
- コード生成の精度が高い
- 変な回答が少ない
- 日本語も理解してくれる
- 会話の流れが自然
M5 の印象:
M5 の性能を一番活かせているモデルだと感じました。
14B という適度なサイズと高い品質が、M5 + 32GB という環境にぴったり合っている印象です。
感想:
試した中で一番使いやすかったです。
M5 Mac でローカルLLMを使うなら、今のところこれがベストだと思います。
Qwen と DeepSeek についての所感
当初避けようとしていた Qwen と DeepSeek ですが、実際に使ってみるとかなり安定して使えることが分かりました。
StarCoder 系のような会話の破綻もなく、応答も自然です。
コード品質については、これから実践を通して確かめていくことになりますが、出だしは良さそうです。
正直なところ、変なものが仕込まれていないことだけを祈りたい気持ちはあります。
ただ、ローカルで動かしている限り、外部への通信はOllamaが管理しているはずなので、そこは信頼するしかありません。
セキュリティを重視してローカルLLMを選んだのに、結局当初避けようとしていたモデルに落ち着いたというのは皮肉な話ですが、実用性とのバランスを考えると、現状ではこれがベストな選択だと感じています。
M5 の実力:サイズ別の印象まとめ
| モデルサイズ | M5 での快適さ | 実用性 | 印象 |
|---|---|---|---|
| 7B以下 | ◎(速い) | △(品質が不安定) | 速いけど質が足りない |
| 14〜16B | ◎◎ | ◎◎ | 一番バランスが良い |
| 22B〜32B | △(重い) | △(32GBでは厳しい) | 64GB欲しい |
まとめ:M5 はローカルLLMにどこまで対応できるか?
M5 チップの印象
◎ 良かった点:
- 14〜16B クラスはかなり快適に動く
- 推論速度が速い
- 安定している
- この領域では M5 の性能向上を実感できる
△ 厳しいと感じた点:
- 22B以上は32GBメモリだと重い
- M5 の性能は良さそうだけど、メモリが足りない
- 大規模モデルを使うなら64GB以上が必要そう
個人的な結論
M5 + 32GB 環境では、14〜16B クラスが一番実用的。
M5 の性能向上は確かに感じられますが、メモリ容量がボトルネックになっていると思います。
【おすすめ】M5 Mac でcodingメインに使うなら、このモデル
試した結果、M5 Mac(32GB)で個人的におすすめできるモデルを紹介します。
🥇 一番のおすすめ:Qwen2.5 Coder 14B
qwen2.5-coder:14b-instruct
- 速度・品質・安定性のバランスが最高
- M5 の性能を一番活かせている
- 開発作業で一番ストレスが少ない
- 日本語対応も良好
- 迷ったらこれを試してみてください
🥈 次点:DeepSeek Coder v2 16B Lite
deepseek-coder-v2:16b-lite-instruct-q4_K_M
- Qwen に次ぐ品質
- 少し重いけど許容範囲
- コード生成精度が高い
- 安定性も十分
⚠️ あまりおすすめしない:StarCoder 系
- M5 でも品質の不安定さは変わらない
- 軽さよりも品質を優先した方が良い
⚠️ 条件付き:Codestral 22B/32B
- モデル性能は良い
- 64GB以上のメモリがあれば試す価値あり
- 32GBでは実用的ではない
⚠️ 注意点:ollamaのgui版からdeepseekのクラウド版も選べますが、選択は慎重にした方が良さそうです。
メモリ別のおすすめ(M5 Mac)
16GB の場合
- 7B クラスが良さそう
- 14B は動くけど余裕がない印象
- おすすめ:
qwen2.5-coder:7b-instruct
32GB の場合(自分の環境)
- 14〜16B が最適
- 一番のおすすめ:Qwen2.5 Coder 14B
- 次点:DeepSeek Coder v2 16B Lite
- 22B以上は避けた方が良い
64GB以上の場合
- 16B が余裕で動きそう
- 22B も選択肢に入るかも
- 32B は試してみないと分からない
M5 Mac でローカルLLMを始める人へ
M5 の実力は?
良い点: 14〜16B クラスはかなり快適
良い点: 従来より明らかに使いやすくなっている
注意点: 32GBでは22B以上は厳しい
注意点: メモリが重要
何を選べばいい?
おすすめ:Qwen2.5 Coder 14B を試してみてください。
自分が試した中では、これが M5 Mac で一番バランスが良かったです。
最後に:期待の M5 、実際どうだった?
✅ 期待通りだった点
- 14〜16B クラスの動作がかなり快適
- AI性能の向上を実感できる
- ローカルLLMが実用レベルになった
△ 思ったより厳しかった点
- 22B以上は32GBでは重い
- メモリがボトルネックになる
- 大規模モデルには64GB必要そう
🎯 個人的な結論
M5 + 32GB では、Qwen2.5 Coder 14B がベスト。
期待の M5 チップは、適切なサイズのモデルを選べば、確かにローカルLLMを快適に動かせます。
ただし、メモリ容量の選択が非常に重要だと感じました。
セキュリティ面での安心感とトークン制限のない自由さを考えると、ローカルLLM環境を整える価値は十分あると思います。
更新履歴:
- 2025/11/23: 初版公開(M5 検証・おすすめモデル紹介)