M4Pro MacBookでgpt-oss-20b実行環境構築してみる

Last updated at 2025-10-27Posted at 2025-10-27

Macのスペック

CPU12Core,GPU 16Core,メモリ24GのM4 pro

🔧 環境構築の全体像

ステップ	ツール	目的	備考
①	Homebrew	パッケージ管理	Mac標準の依存関係解決
②	Ollama	最も簡単なLLM実行環境	自動的にMPS (Metal)を利用
③	LM Studio（任意）	GUIでモデル管理・推論	Ollama互換
④	量子化モデル導入	`gpt-oss-20b`（int4形式）を取得	`.gguf`形式利用
⑤	実行・テスト	実際に動かして性能確認	トークン速度確認など

🧰 ステップ①：Homebrewをインストール

（すでに入っていればスキップ）

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

インストール後：

brew update
brew upgrade

🚀 ステップ②：Ollama を導入

Ollama は Mac 向けの軽量 LLM ランチャーで、Metal対応（MPS）済み。
内部で gguf（int4量子化）モデル を自動で扱えます。

brew install ollama

インストール完了後、デーモンを起動：

ollama serve &

バージョン確認：

ollama --version

🧠 ステップ③：`gpt-oss-20b`モデルを取得

Ollamaには複数の20B級モデル（Qwen2, Mistral, Falconなど）が登録されています。
ここでは「gpt-oss-20b」または互換の qwen2:20b を例にします。

例：gpt-oss-20b（int4量子化）

ollama pull gpt-oss-20b

もし gpt-oss-20b が見つからない場合は（OSSモデルが非公式扱いの場合）
代替として以下を利用できます：

ollama pull qwen2:20b

いずれも自動で int4（GGUF） 形式が選択されます。
ダウンロードサイズは約 9〜11GB 程度。

💬 ステップ④：動作テスト

インタラクティブ実行：

ollama run gpt-oss-20b

例：

>>> 日本語で「AIと人間の違い」を一文で説明して。

終了は Ctrl + D。

⚙️ ステップ⑤：速度・メモリを確認

別ターミナルで：

top -o mem

または：

ps aux | grep ollama

おおよその目安：

項目	M4 Pro 24GB + int4モデル
初回ロード時間	約20〜30秒
推論速度	10〜18 tokens/sec
メモリ使用量	約12〜15GB
発熱・ファン	中程度（静音モード可）

※ 長文出力や複数プロセス実行時はRAM残量に注意（16GBモデルだと厳しい）

🪟（任意）LM StudioでGUI利用

より使いやすくしたい場合：

LM Studio公式からダウンロード
起動後「Local Models」→「Add Model」→ gpt-oss-20b を検索
推論設定で「Compute: Metal (Apple Silicon)」を選択

Ollamaのバックエンドをそのまま利用できます。
チャットUIで複数プロンプトを試せるので、精度比較もしやすいです。

🧩 応用（Python連携など）

OllamaのREST APIを有効化：

ollama serve

Pythonから呼び出す：

import requests

res = requests.post("http://localhost:11434/api/generate", json={
    "model": "gpt-oss-20b",
    "prompt": "M4 Macで動くLLMについて説明して"
})
print(res.json()["response"])

✅ 最適化ポイント（M4 Proでの実用チューニング）

設定項目	推奨値	効果
スワップ無効化	macOS設定で自動管理のまま	メモリ圧迫回避
冷却	外部冷却台・通気確保	サーマルスロットリング防止
並列実行数	1	安定性確保
システムメモリ残量	最低5GB以上確保	強制終了回避

⚡ まとめ

項目	推奨構成
ハード	M4 Pro（24GB） ✅ 十分
モデル形式	GGUF / int4
実行環境	Ollama または LM Studio
使用メモリ	約12〜15GB
推論速度	約10〜18 tokens/sec
精度	GPT-3.5相当〜GPT-4に近い（モデルによる）

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up