1. 概要
OpenAIが公開したオープンウェイトモデル「gpt‑oss‑120B/20B」は、Apache License 2.0の下で配布されており、商用・非商用問わず自由にダウンロード・ローカルで実行・改変可能です。
gpt‑oss‑20Bは VRAM 16 GB以上のPCや一部スマートフォンで動作する軽量モデル、gpt‑oss‑120Bは 大規模GPU環境で高性能推論が可能です。
2. 前提条件(ハードウェア&環境)
- gpt‑oss‑20B:VRAM 16 GB以上(例:NVIDIA RTX 30xx / RTX 40xx/高性能Radeon GPU)
- gpt‑oss‑120B:80 GB級GPUやマルチGPU環境が推奨される
- OS:Linux, Windows 11(MicrosoftのWindows AI Foundry経由でも可)
3. インストール手順
3.1 Pythonライブラリ gpt-oss を使う
pip install gpt-oss
3.2 Hugging Face / AWS / Azureなどからモデルの重みをダウンロード
-
OpenAI公式やHugging Face、AWS、Azureなどの配布元からモデル重みを取得
例(Hugging Face): https://huggingface.co/openai/gpt-oss-20b -
ダウンロード容量の目安
gpt-oss-20Bモデル:約40〜50GB
gpt-oss-120Bモデル:約240〜300GB
3.3 モデルの配置
- ダウンロードしたファイルをローカルの任意フォルダにまとめる
例: C:\models\gpt-oss-20b\
3.4 サーバー起動コマンド実行 (pythonの場合)
python -m gpt_oss.server --model_name_or_path C:\models\gpt-oss-20b --device cuda:0 --port 8000
-
--model_name_or_pathにモデル重みのパスを指定 - GPUがなければ
--device cpuを指定可能(ただし動作はめっちゃ遅い)
3.5 実行例(vLLM と gpt-oss)
pip install gpt-oss vllm
python -m gpt_oss.server \
--model_name_or_path gpt-oss-20b \
--device cuda:0 \
--port 8000
3.6 動作確認
http://localhost:8000
起動後、ブラウザで http://localhost:8000 にアクセスすれば対話インターフェイスが表示されます。
3.7 推論バックエンドの拡張 (任意)
vLLMと連携する場合は以下の追加インストールと起動を実施
pip install vllm
python -m gpt_oss.server --model_name_or_path C:\models\gpt-oss-20b --device cuda:0 --port 8000 --use_vllm
利用要件チェックリスト
| 項目 | 確認内容 |
|---|---|
| VRAM | 16GB以上ならgpt‑oss‑20B、80GB級なら120Bを検討 |
| OS | LinuxもしくはWindows 11 with AI Foundry |
| ネットワーク | モデルダウンロードが必要(Hugging Face 等) |
| 推論環境 | Python, PyTorch, vLLM, CUDA等が整っているか確認 |
| ライセンス | Apache 2.0に基づく条項を理解して同意済みか |
| 配布・改変 | 必要に応じて再配布・改変ライセンス条件確認 |
利用開始の流れまとめ
- 必要GPUのVRAMを確認 → モデル選定(20B or 120B)
- Python環境(pip+vLLMなど)を用意
-
pip install gpt‑oss、モデルを指定してローカルサーバ起動 - ポート開放設定が必要なら調整(例:8000ポート)
- ブラウザでアクセスして対話、APIインテグレーション等も可能
- 必要に応じてLangChainやRAGに組み込み可能