はじめに
2025年8月5日、OpenAIがオープンソース(実際はオープンウェイト)LLMファミリー「GPT-OSS」をリリースしました。Apache 2.0ライセンスで提供されるこのモデルは、企業や個人開発者が自由に利用・カスタマイズできる画期的なものです。
本記事では、「GPT-OSSを実際に動かすといくらかかるのか」という現実的な視点から、GPU要件、実行コスト、そして実際の運用方法について徹底解説します。特に「量化なし・最適化なしの原版モデ」を運用する際のリアルなコストに焦点を当てます。
GPT-OSSとは
GPT-OSSは、OpenAIが開発したMixture-of-Experts(MoE)アーキテクチャを採用したTransformerベースの大規模言語モデルです。2つのモデルサイズが提供されています:
モデルラインナップ
モデル | 総パラメータ数 | アクティブパラメータ/トークン | レイヤー数 | エキスパート数 |
---|---|---|---|---|
gpt-oss-120b | 117B | 5.1B | 36層 | 128エキスパート/MoE層 |
gpt-oss-20b | 21B | 3.6B | 24層 | 32エキスパート/MoE層 |
両モデルとも:
- 最大128,000トークンのコンテキスト長をサポート
- Rotary Positional Embeddings(RoPE)を使用
- グループ化マルチクエリアテンション(グループサイズ8)を採用
ベンチマーク性能
GPT-OSSは、OpenAIの独自モデルと比較して優れた性能を示しています:
GPT-OSS-120B vs o4-mini
ベンチマーク | GPT-OSS-120B | 比較結果 |
---|---|---|
AIME 2024 | 96.6%精度(ツール使用時) | o4-miniを上回る |
AIME 2025 | 97.9%精度(ツール使用時) | o4-miniを上回る |
MMLU | - | o4-miniと同等以上 |
HLE | - | o4-miniと同等以上 |
TauBench | 高いツール使用・コーディング性能 | o4-miniと同等 |
HealthBench | - | o4-miniを上回る |
GPT-OSS-20B vs o3-mini
小型版のGPT-OSS-20Bも、o3-miniと同等またはそれ以上の性能を示し、特に競技数学(AIME)と医療関連クエリで優れた結果を出しています。
価格差:GPU要件とメモリ使用量
非量化版(FP16/BF16)の要件
GPT-OSS-120B
- 必要VRAM: 60-80GB
- 推奨GPU: NVIDIA H100 80GB、H200 140GB
- 最小構成: 単一の高メモリGPU
GPT-OSS-20B
- 必要VRAM: 約16GB
- 推奨GPU: RTX 4090(24GB)、RTX 5090(32GB)
- 最小構成: RTX 4070 Ti(16GB)でも動作可能
量化版の要件
MXFP4量化(4.25ビット/パラメータ)を使用した場合:
モデル | MXFP4量化時のVRAM |
---|---|
GPT-OSS-120B | 約61GB |
GPT-OSS-20B | 約16GB |
リアルなGPUクラウド価格(2025年8月調査)
H100 80GB GPU時間単価
プロバイダー | 時間単価(USD) | 特徴 |
---|---|---|
VAST.AI | $1.87-$1.92 | 🏆最安値帯、オンデマンド |
Lambda Labs | $2.49-$3.29 | フルノードアクセス、バンドル価格 |
Northflank | $2.74 | 高速起動、クォータ不要 |
Runpod | $4.18 | GPU単体価格、CPU/RAM別料金 |
Azure NC H100 | $6.98 | エンタープライズ向け、SLA保証 |
AWS EC2 P5 | $7.57 | エンタープライズ向け、統合サービス |
Google Cloud | $10-$11 | クォータ制限あり |
VAST.AI実測価格(2025年8月8日確認)
実際のVAST.AIマーケットプレイスでの価格:
- H100 SXM 80GB: $1.873/時間(テキサス、米国)
- H200 140GB: $1.72/時間(ハンガリー)
- H100 NVL 94GB: $2.05/時間(チェコ)
GPT-OSS-120B運用コスト比較
プロバイダー | 月額コスト(USD) | VAST.AI比 |
---|---|---|
VAST.AI | $1,347 | - |
Lambda Labs | $1,793 | +33% |
AWS EC2 P5 | $5,450 | +305% |
Azure | $5,026 | +273% |
AWSは4倍の価格差! 同じGPUでも選択次第で月額$4,000以上の差が生まれます。
コンシューマーGPUでのローカル実行
RTX 4090/5090の価格と性能
GPU | MSRP | 実売価格帯 | VRAM |
---|---|---|---|
RTX 4090 | $1,599 | $1,600-$3,000+ | 24GB |
RTX 5090 | $1,999 | $1,999-$3,000+ | 32GB |
ローカル実行時のパフォーマンス
モデル | ハードウェア | 推論速度 |
---|---|---|
GPT-OSS-20B | MacBook Pro M3 Pro(18GB RAM) | 約30トークン/秒 |
GPT-OSS-120B | RTX 3090 + i9-14900K | 約25トークン/秒 |
つまり、**RTX 4090一枚(約20万円)**で、GPT-OSS-20Bを快適に動かせます。
10分で始めるセットアップ方法
Macでの実行(Apple Silicon M1/M2/M3)
# Homebrewのインストール
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
# Ollamaのインストール
brew install ollama
# Ollamaサーバーの起動
ollama serve
# 別ターミナルでモデルをダウンロード・実行
ollama pull gpt-oss:20b
ollama run gpt-oss:20b
Hugging Faceからの直接ダウンロード
# Hugging Face CLIでウェイトをダウンロード
huggingface-cli download openai/gpt-oss-20b \
--include "original/*" \
--local-dir gpt-oss-20b/
# Transformersでの実行
pip install transformers torch accelerate
Dockerでの実行
FROM nvidia/cuda:12.1.0-base-ubuntu22.04
RUN apt-get update && apt-get install -y python3-pip
RUN pip3 install transformers torch accelerate
# モデルのダウンロードと実行
CMD ["python3", "run_gpt_oss.py"]
実世界のユースケース
1. エンタープライズ活用
- RAG(Retrieval-Augmented Generation):企業内データと連携
- ドキュメント生成:技術文書の自動作成
- コード生成・レビュー:開発効率の向上
- 意思決定支援:戦略立案のアシスタント
2. ヘルスケア分野
- 臨床ガイドラインへの特化ファインチューニング
- HIPAA準拠のローカル展開
- 患者データ分析(プライバシー保護)
- 医療研究支援
3. 開発者ツール
- APIインテグレーション
- システムアーキテクチャ設計
- デバッグ支援
- Chain-of-Thought推論による複雑な問題解決
4. エージェント型タスク
- 自律的なツール呼び出し
- マルチステップタスクの実行
- 動的なソフトウェア環境との対話
賢い選択:コスト最適化の現実解
1. モデル選択フローチャート
予算は月額$500以下?
├─ YES → GPT-OSS-20B
│ ├─ ローカル実行可能?
│ │ ├─ YES → RTX 4090購入(初期投資20万円)
│ │ └─ NO → VAST.AI(RTX 4090: $0.40/時間)
│ └─ 推論速度: 30トークン/秒
│
└─ NO → GPT-OSS-120B
├─ 信頼性重視?
│ ├─ YES → AWS/Azure(月額$5,000+)
│ └─ NO → VAST.AI(月額$1,347)
└─ 性能: AIME 97.9%精度
2. 隠れコストに注意
クラウドの隠れコスト
- データ転送料: AWS/Azureは別途課金
- ストレージ: モデル保存に追加料金
- クォータ申請: 大手は承認待ち時間あり
VAST.AIの注意点
- 可用性: 個人ホストのため不安定な場合あり
- 信頼性: 99.7%程度(AWS/Azureは99.99%)
- サポート: 限定的
3. 実践的な推奨構成
個人開発者・スタートアップ
モデル: GPT-OSS-20B
環境:
- 開発: ローカル(RTX 4090)
- 本番: VAST.AI($0.40/時間)
月額予算: $300-500
エンタープライズ
モデル: GPT-OSS-120B
環境:
- 開発: Lambda Labs($2.49/時間)
- 本番: AWS EC2 P5(SLA保証)
月額予算: $2,000-6,000
研究・実験用途
モデル: 両モデルを使い分け
環境: VAST.AI(スポットインスタンス)
月額予算: $500-1,000
よくある質問と回答
Q: 本当に$1.87/時間で動くの?
A: はい、実際に動きます。 2025年8月8日時点のVAST.AI実測値です。ただし:
- 可用性は保証されません
- 価格は変動します
- エンタープライズサポートはありません
Q: RTX 4090で120Bモデルは動く?
A: いいえ、VRAMが不足します。
- RTX 4090: 24GB VRAM → 20Bモデルまで
- 120Bモデル: 最低60GB VRAM必要
Q: 量化版の性能劣化は?
A: MXFP4量化では最小限です。
- ベンチマーク精度: -1〜2%程度
- 推論速度: むしろ向上
- メモリ使用: 約25%削減
まとめ:GPT-OSSがもたらす民主化
GPT-OSSの登場により、以下が現実になりました:
🎯 主要ポイント
- 月額13万円でo4-mini級のAIを所有可能
- 20万円のGPUでローカル実行可能
- クラウド選択で4倍の価格差
- 完全オープンソースで商用利用OK
📊 コストパフォーマンス比較
選択肢 | 初期投資 | 月額コスト | 性能 |
---|---|---|---|
ChatGPT Plus | $0 | $20 | 制限あり |
GPT-OSS-20B(ローカル) | $2,000 | $0 | 無制限 |
GPT-OSS-120B(VAST.AI) | $0 | $1,347 | o4-mini超え |
GPT-OSS-120B(AWS) | $0 | $5,450 | 同上+SLA |
参考リンク
- OpenAI GPT-OSS公式ページ
- Hugging Face - GPT-OSS-120B
- Hugging Face - GPT-OSS-20B
- GitHub - OpenAI GPT-OSS
- VAST.AI
- 公式モデルカード(PDF)
著者について: AI/MLエンジニアとして、LLMの実装と最適化に従事。本記事は2025年8月8日時点の実測データに基づいています。価格は変動する可能性があります。