- 24GBメモリのM4 MacBook Proでも、ローカルLLMは「実用の入口」まではかなり行ける
- ただし、SOTA級モデル(最先端の巨大モデル)ほど賢くはないので、使い方は「丸投げ」より対話しながら進めるのが向いている
- 著者が最終的に使いやすかったのは Qwen 3.5 9B(4-bit量子化)
- LM Studio を中心に、pi や OpenCode と組み合わせて使っている
- ローカルLLMは、オフラインで使える・サブスク不要・試行錯誤が楽しいという魅力がある
- ただし、設定がやや面倒で、モデル選び・推論設定・ツール連携などの調整が必要
ローカルLLM、Macでやると「夢はあるけど簡単ではない」
jola.dev の記事「Running local models on an M4 with 24GB memory」は、24GBメモリのM4 MacBook Proでローカルモデルを動かす試行錯誤をまとめた内容です。
ここでいう「ローカルモデル」は、ChatGPTのようなクラウドサービスではなく、自分のPCの中でAIモデルを動かすこと。つまり、インターネット接続なしでも使えるし、データを外に出さずに済むのが大きな利点です。
著者は、かなり率直に「これはSOTAモデルみたいな出力ではない」と認めています。
SOTAは State of the Art の略で、要するにその時点で最先端レベルのモデルのこと。ここでは、ClaudeやGPTの上位モデルみたいな、かなり高性能なやつを想像するとわかりやすいです。
とはいえ、著者は「それでもローカルで、基本的な作業・調査・計画ができるのはかなり楽しい」と感じている。
この感覚、すごくわかります。“全部をAIに任せる” ではなく “手元の賢い相棒” として使う方向は、むしろ健全だと思うんですよね。
何が難しいのか:モデル選びと設定がややこしい
著者いわく、ローカルLLMは「動かすまで」がまず大変です。
1. まず実行環境を選ぶ必要がある
候補として挙げているのは次の3つです。
- Ollama
- llama.cpp
- LM Studio
それぞれに癖があり、使えるモデルも完全には同じではないそうです。
つまり、「どれでも同じでしょ」とはならないのが面倒なところ。ここはローカルAI界隈あるあるです。
2. 次にモデルを選ぶ必要がある
しかもただのモデル選びではありません。
- メモリに収まること
- Electronアプリなど、普段の作業用アプリを閉じなくても動くこと
- 64K以上、できれば128K以上の context window があること
context window は、ざっくり言うとAIが一度に覚えておける文章の長さです。
長ければ長いほど、長文のやり取りや大きめのコードベースにも対応しやすい。
実際に試したモデルは以下の記事に掲載しました。