gpt-oss 導入ガイド。実際の利用手順まとめ

Last updated at 2025-09-08Posted at 2025-08-07

1. 概要

OpenAIが公開したオープンウェイトモデル「gpt‑oss‑120B／20B」は、Apache License 2.0の下で配布されており、商用・非商用問わず自由にダウンロード・ローカルで実行・改変可能です。
gpt‑oss‑20Bは VRAM 16 GB以上のPCや一部スマートフォンで動作する軽量モデル、gpt‑oss‑120Bは 大規模GPU環境で高性能推論が可能です。

2. 前提条件（ハードウェア＆環境）

gpt‑oss‑20B：VRAM 16 GB以上（例：NVIDIA RTX 30xx / RTX 40xx／高性能Radeon GPU）
gpt‑oss‑120B：80 GB級GPUやマルチGPU環境が推奨される
OS：Linux, Windows 11（MicrosoftのWindows AI Foundry経由でも可）

3. インストール手順

3.1 Pythonライブラリ `gpt-oss` を使う

pip install gpt-oss

3.2 Hugging Face / AWS / Azureなどからモデルの重みをダウンロード

OpenAI公式やHugging Face、AWS、Azureなどの配布元からモデル重みを取得
例（Hugging Face）: https://huggingface.co/openai/gpt-oss-20b
ダウンロード容量の目安
gpt-oss-20Bモデル：約40〜50GB
gpt-oss-120Bモデル：約240〜300GB

3.3 モデルの配置

ダウンロードしたファイルをローカルの任意フォルダにまとめる
例: C:\models\gpt-oss-20b\

3.4 サーバー起動コマンド実行 (pythonの場合)

python -m gpt_oss.server --model_name_or_path C:\models\gpt-oss-20b --device cuda:0 --port 8000

--model_name_or_pathにモデル重みのパスを指定
GPUがなければ--device cpuを指定可能（ただし動作はめっちゃ遅い）

3.5 実行例（vLLM と gpt-oss）

pip install gpt-oss vllm
python -m gpt_oss.server \
  --model_name_or_path gpt-oss-20b \
  --device cuda:0 \
  --port 8000

3.6 動作確認

http://localhost:8000

起動後、ブラウザで http://localhost:8000 にアクセスすれば対話インターフェイスが表示されます。

3.7 推論バックエンドの拡張 (任意)

vLLMと連携する場合は以下の追加インストールと起動を実施

pip install vllm
python -m gpt_oss.server --model_name_or_path C:\models\gpt-oss-20b --device cuda:0 --port 8000 --use_vllm

利用要件チェックリスト

項目	確認内容
VRAM	16GB以上ならgpt‑oss‑20B、80GB級なら120Bを検討
OS	LinuxもしくはWindows 11 with AI Foundry
ネットワーク	モデルダウンロードが必要（Hugging Face 等）
推論環境	Python, PyTorch, vLLM, CUDA等が整っているか確認
ライセンス	Apache 2.0に基づく条項を理解して同意済みか
配布・改変	必要に応じて再配布・改変ライセンス条件確認

利用開始の流れまとめ

必要GPUのVRAMを確認 → モデル選定（20B or 120B）
Python環境（pip＋vLLMなど）を用意
pip install gpt‑oss、モデルを指定してローカルサーバ起動
ポート開放設定が必要なら調整（例：8000ポート）
ブラウザでアクセスして対話、APIインテグレーション等も可能
必要に応じてLangChainやRAGに組み込み可能

出典

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up