Macのスペック
CPU12Core,GPU 16Core,メモリ24GのM4 pro
🔧 環境構築の全体像
| ステップ | ツール | 目的 | 備考 |
|---|---|---|---|
| ① | Homebrew | パッケージ管理 | Mac標準の依存関係解決 |
| ② | Ollama | 最も簡単なLLM実行環境 | 自動的にMPS (Metal)を利用 |
| ③ | LM Studio(任意) | GUIでモデル管理・推論 | Ollama互換 |
| ④ | 量子化モデル導入 |
gpt-oss-20b(int4形式)を取得 |
.gguf形式利用 |
| ⑤ | 実行・テスト | 実際に動かして性能確認 | トークン速度確認など |
🧰 ステップ①:Homebrewをインストール
(すでに入っていればスキップ)
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
インストール後:
brew update
brew upgrade
🚀 ステップ②:Ollama を導入
Ollama は Mac 向けの軽量 LLM ランチャーで、Metal対応(MPS)済み。
内部で gguf(int4量子化)モデル を自動で扱えます。
brew install ollama
インストール完了後、デーモンを起動:
ollama serve &
バージョン確認:
ollama --version
🧠 ステップ③:gpt-oss-20bモデルを取得
Ollamaには複数の20B級モデル(Qwen2, Mistral, Falconなど)が登録されています。
ここでは「gpt-oss-20b」または互換の qwen2:20b を例にします。
例:gpt-oss-20b(int4量子化)
ollama pull gpt-oss-20b
もし gpt-oss-20b が見つからない場合は(OSSモデルが非公式扱いの場合)
代替として以下を利用できます:
ollama pull qwen2:20b
いずれも自動で int4(GGUF) 形式が選択されます。
ダウンロードサイズは約 9〜11GB 程度。
💬 ステップ④:動作テスト
インタラクティブ実行:
ollama run gpt-oss-20b
例:
>>> 日本語で「AIと人間の違い」を一文で説明して。
終了は Ctrl + D。
⚙️ ステップ⑤:速度・メモリを確認
別ターミナルで:
top -o mem
または:
ps aux | grep ollama
おおよその目安:
| 項目 | M4 Pro 24GB + int4モデル |
|---|---|
| 初回ロード時間 | 約20〜30秒 |
| 推論速度 | 10〜18 tokens/sec |
| メモリ使用量 | 約12〜15GB |
| 発熱・ファン | 中程度(静音モード可) |
※ 長文出力や複数プロセス実行時はRAM残量に注意(16GBモデルだと厳しい)
🪟(任意)LM StudioでGUI利用
より使いやすくしたい場合:
- LM Studio公式 からダウンロード
- 起動後「Local Models」→「Add Model」→
gpt-oss-20bを検索 - 推論設定で「Compute: Metal (Apple Silicon)」を選択
Ollamaのバックエンドをそのまま利用できます。
チャットUIで複数プロンプトを試せるので、精度比較もしやすいです。
🧩 応用(Python連携など)
OllamaのREST APIを有効化:
ollama serve
Pythonから呼び出す:
import requests
res = requests.post("http://localhost:11434/api/generate", json={
"model": "gpt-oss-20b",
"prompt": "M4 Macで動くLLMについて説明して"
})
print(res.json()["response"])
✅ 最適化ポイント(M4 Proでの実用チューニング)
| 設定項目 | 推奨値 | 効果 |
|---|---|---|
| スワップ無効化 | macOS設定で自動管理のまま | メモリ圧迫回避 |
| 冷却 | 外部冷却台・通気確保 | サーマルスロットリング防止 |
| 並列実行数 | 1 | 安定性確保 |
| システムメモリ残量 | 最低5GB以上確保 | 強制終了回避 |
⚡ まとめ
| 項目 | 推奨構成 |
|---|---|
| ハード | M4 Pro(24GB) ✅ 十分 |
| モデル形式 | GGUF / int4 |
| 実行環境 | Ollama または LM Studio |
| 使用メモリ | 約12〜15GB |
| 推論速度 | 約10〜18 tokens/sec |
| 精度 | GPT-3.5相当〜GPT-4に近い(モデルによる) |