概要
新しくMac miniを購入したので、ローカルでLLM(大規模言語モデル)を動かす環境を構築してみようと思い、その備忘録として手順をまとめます。
外部API不要で、完全ローカルで動作します。
はじめに
ローカルLLMといっても動かせるモデルは複数あります。それぞれ得意なことや推奨スペックなどありますので、自分のPCのスペックと用途に合うモデルを選択してください。
主なローカルLLM比較まとめ
| 開発元 | モデル | 推奨スペック(VRAM目安) | 得意なこと |
|---|---|---|---|
| Alibaba Cloud | Qwen3(8B / 14B / 32B / MoEなど) | 8GB〜24GB以上(14Bで16GB推奨) | 日本語処理、文書作成、RAG、コーディング、汎用タスク全般 |
| DeepSeek | DeepSeek-R1(7Bなど) | 8GB〜16GB | 論理推論、数学、コード生成、複雑な問題解決 |
| Gemma 3(1B / 4B / 12B / 27B) | 4GB〜12GB | 軽量タスク、翻訳、マルチモーダル、低スペック環境 | |
| Microsoft | Phi-4(14B) | 8GB〜16GB | コーディング、数学的推論、軽量高精度処理 |
補足(重要ポイントまとめ)
- 総合最強(ローカル)
→ Qwen3(特に14B) - 思考・推論特化
→ DeepSeek-R1 - 軽さ重視
→ Gemma 3 - コード特化の小型モデル
→ Phi-4
前提環境
- Mac mini(M4 Pro / メモリ48GB)
- macOS
- Homebrewインストール済み
- Dockerインストール済み
ローカルLLM 構築手順
① Ollamaのインストール
ローカルでLLMを実行するために「Ollama」を使用します。
brew install ollama
② Ollamaの起動
ollama serve
※ バックグラウンドでLLMサーバーが起動します
③ モデルのダウンロードと実行
バランスが良くおすすめ
ollama run qwen3:14b
高性能モデル(余裕があれば)
ollama run qwen3:32b
今回入れていませんが、軽量モデルも存在します。
ollama run llama3:8b
④ 動作確認
起動後、そのまま対話可能です。
>>> Hello
終了する場合:
/exit
※ Qwen3が環境によっては動作しない場合は、qwen2.5:14b を使用してください
⑤ モデル管理コマンド
インストール済みモデル一覧
ollama list
モデル削除
ollama rm qwen3:14b
以上が自PC内にローカルLLM環境を整える手順になります。
スマホから使う方法
家の外からスマートフォンでこの AIを使う方法を説明します。
今回は簡単な Cloudflare Tunnelを使用します。
※ Cloudflare Tunnelについての説明はここでは割愛します。
① Dockerを起動する
インストールしたDockerを立ち上げる。
※ まだインストールしていない方は、公式サイトから自分のOSにあったものをダウンロードし、手順にそってインストールしてください
( https://www.docker.com/ja-jp/get-started/ )
② Dockerコンテナを起動する
docker run -d \
-p 3000:8080 \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
--name open-webui \
ghcr.io/open-webui/open-webui:main
ChatGPTのようなUIを自分で作ってもいいのですが、今回は簡単に用意されたWeb UI(Open WebUI)を使います。
③ アクセスする
http://localhost:3000
上記のアドレスにアクセスし、以下を行う。
- 指示に従ってOpen WebUIのアカウントを作成する(これはスマートフォンでもログイン時に使用します)
※ URLを知っている人はアクセス可能になるため、パスワードは必ず設定してください - モデルを選択する
④ Cloudflare Tunnelをインストールする
brew install cloudflared
⑤ トンネル作成
cloudflared tunnel --url http://localhost:3000
⑥ 表示されたURLにスマートフォンからアクセス
以下のようなURLが表示されるので、それをブラウザのアドレスバーに入れてアクセスしてください。
https://xxxx.trycloudflare.com
最後に
最近は Claude Code のような高性能なAIツールも流行っていますが、トークン制限によって使用量を気にする場面もあるかと思います。
その点、ローカルLLMは:
- トークン制限なし(実質使い放題)
- 追加コストなし(電気代のみ)
- データが外に出ない(完全ローカル)
という大きなメリットがあります。
特に今回のような環境であれば、日常的なチャットからコーディング、文章作成まで幅広くカバーでき、十分に実用レベルのAI環境を構築できます。
「トークンが足りない」という方や「気軽に、自由に、安全にAIを使いたい」という方は、ぜひローカルLLM環境を試してみてください。