0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

M4Pro MacBookでgpt-oss-20b実行環境構築してみる

Last updated at Posted at 2025-10-27

Macのスペック

CPU12Core,GPU 16Core,メモリ24GのM4 pro

🔧 環境構築の全体像

ステップ ツール 目的 備考
Homebrew パッケージ管理 Mac標準の依存関係解決
Ollama 最も簡単なLLM実行環境 自動的にMPS (Metal)を利用
LM Studio(任意) GUIでモデル管理・推論 Ollama互換
量子化モデル導入 gpt-oss-20b(int4形式)を取得 .gguf形式利用
実行・テスト 実際に動かして性能確認 トークン速度確認など

🧰 ステップ①:Homebrewをインストール

(すでに入っていればスキップ)

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

インストール後:

brew update
brew upgrade

🚀 ステップ②:Ollama を導入

Ollama は Mac 向けの軽量 LLM ランチャーで、Metal対応(MPS)済み。
内部で gguf(int4量子化)モデル を自動で扱えます。

brew install ollama

インストール完了後、デーモンを起動:

ollama serve &

バージョン確認:

ollama --version

🧠 ステップ③:gpt-oss-20bモデルを取得

Ollamaには複数の20B級モデル(Qwen2, Mistral, Falconなど)が登録されています。
ここでは「gpt-oss-20b」または互換の qwen2:20b を例にします。

例:gpt-oss-20b(int4量子化)

ollama pull gpt-oss-20b

もし gpt-oss-20b が見つからない場合は(OSSモデルが非公式扱いの場合)
代替として以下を利用できます:

ollama pull qwen2:20b

いずれも自動で int4(GGUF) 形式が選択されます。
ダウンロードサイズは約 9〜11GB 程度。


💬 ステップ④:動作テスト

インタラクティブ実行:

ollama run gpt-oss-20b

例:

>>> 日本語で「AIと人間の違い」を一文で説明して。

終了は Ctrl + D


⚙️ ステップ⑤:速度・メモリを確認

別ターミナルで:

top -o mem

または:

ps aux | grep ollama

おおよその目安:

項目 M4 Pro 24GB + int4モデル
初回ロード時間 約20〜30秒
推論速度 10〜18 tokens/sec
メモリ使用量 約12〜15GB
発熱・ファン 中程度(静音モード可)

※ 長文出力や複数プロセス実行時はRAM残量に注意(16GBモデルだと厳しい)


🪟(任意)LM StudioでGUI利用

より使いやすくしたい場合:

  1. LM Studio公式 からダウンロード
  2. 起動後「Local Models」→「Add Model」→ gpt-oss-20b を検索
  3. 推論設定で「Compute: Metal (Apple Silicon)」を選択

Ollamaのバックエンドをそのまま利用できます。
チャットUIで複数プロンプトを試せるので、精度比較もしやすいです。


🧩 応用(Python連携など)

OllamaのREST APIを有効化:

ollama serve

Pythonから呼び出す:

import requests

res = requests.post("http://localhost:11434/api/generate", json={
    "model": "gpt-oss-20b",
    "prompt": "M4 Macで動くLLMについて説明して"
})
print(res.json()["response"])

✅ 最適化ポイント(M4 Proでの実用チューニング)

設定項目 推奨値 効果
スワップ無効化 macOS設定で自動管理のまま メモリ圧迫回避
冷却 外部冷却台・通気確保 サーマルスロットリング防止
並列実行数 1 安定性確保
システムメモリ残量 最低5GB以上確保 強制終了回避

⚡ まとめ

項目 推奨構成
ハード M4 Pro(24GB) ✅ 十分
モデル形式 GGUF / int4
実行環境 Ollama または LM Studio
使用メモリ 約12〜15GB
推論速度 約10〜18 tokens/sec
精度 GPT-3.5相当〜GPT-4に近い(モデルによる)

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?