0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

OpenAI GPT-OSSを動かすコストは??

Last updated at Posted at 2025-08-08

はじめに

2025年8月5日、OpenAIがオープンソース(実際はオープンウェイト)LLMファミリー「GPT-OSS」をリリースしました。Apache 2.0ライセンスで提供されるこのモデルは、企業や個人開発者が自由に利用・カスタマイズできる画期的なものです。

本記事では、「GPT-OSSを実際に動かすといくらかかるのか」という現実的な視点から、GPU要件、実行コスト、そして実際の運用方法について徹底解説します。特に「量化なし・最適化なしの原版モデ」を運用する際のリアルなコストに焦点を当てます。

GPT-OSSとは

GPT-OSSは、OpenAIが開発したMixture-of-Experts(MoE)アーキテクチャを採用したTransformerベースの大規模言語モデルです。2つのモデルサイズが提供されています:

モデルラインナップ

モデル 総パラメータ数 アクティブパラメータ/トークン レイヤー数 エキスパート数
gpt-oss-120b 117B 5.1B 36層 128エキスパート/MoE層
gpt-oss-20b 21B 3.6B 24層 32エキスパート/MoE層

両モデルとも:

  • 最大128,000トークンのコンテキスト長をサポート
  • Rotary Positional Embeddings(RoPE)を使用
  • グループ化マルチクエリアテンション(グループサイズ8)を採用

ベンチマーク性能

GPT-OSSは、OpenAIの独自モデルと比較して優れた性能を示しています:

GPT-OSS-120B vs o4-mini

ベンチマーク GPT-OSS-120B 比較結果
AIME 2024 96.6%精度(ツール使用時) o4-miniを上回る
AIME 2025 97.9%精度(ツール使用時) o4-miniを上回る
MMLU - o4-miniと同等以上
HLE - o4-miniと同等以上
TauBench 高いツール使用・コーディング性能 o4-miniと同等
HealthBench - o4-miniを上回る

GPT-OSS-20B vs o3-mini

小型版のGPT-OSS-20Bも、o3-miniと同等またはそれ以上の性能を示し、特に競技数学(AIME)と医療関連クエリで優れた結果を出しています。

価格差:GPU要件とメモリ使用量

非量化版(FP16/BF16)の要件

GPT-OSS-120B

  • 必要VRAM: 60-80GB
  • 推奨GPU: NVIDIA H100 80GB、H200 140GB
  • 最小構成: 単一の高メモリGPU

GPT-OSS-20B

  • 必要VRAM: 約16GB
  • 推奨GPU: RTX 4090(24GB)、RTX 5090(32GB)
  • 最小構成: RTX 4070 Ti(16GB)でも動作可能

量化版の要件

MXFP4量化(4.25ビット/パラメータ)を使用した場合:

モデル MXFP4量化時のVRAM
GPT-OSS-120B 約61GB
GPT-OSS-20B 約16GB

リアルなGPUクラウド価格(2025年8月調査)

H100 80GB GPU時間単価

プロバイダー 時間単価(USD) 特徴
VAST.AI $1.87-$1.92 🏆最安値帯、オンデマンド
Lambda Labs $2.49-$3.29 フルノードアクセス、バンドル価格
Northflank $2.74 高速起動、クォータ不要
Runpod $4.18 GPU単体価格、CPU/RAM別料金
Azure NC H100 $6.98 エンタープライズ向け、SLA保証
AWS EC2 P5 $7.57 エンタープライズ向け、統合サービス
Google Cloud $10-$11 クォータ制限あり

VAST.AI実測価格(2025年8月8日確認)

実際のVAST.AIマーケットプレイスでの価格:

  • H100 SXM 80GB: $1.873/時間(テキサス、米国)
  • H200 140GB: $1.72/時間(ハンガリー)
  • H100 NVL 94GB: $2.05/時間(チェコ)

GPT-OSS-120B運用コスト比較

プロバイダー 月額コスト(USD) VAST.AI比
VAST.AI $1,347 -
Lambda Labs $1,793 +33%
AWS EC2 P5 $5,450 +305%
Azure $5,026 +273%

AWSは4倍の価格差! 同じGPUでも選択次第で月額$4,000以上の差が生まれます。

コンシューマーGPUでのローカル実行

RTX 4090/5090の価格と性能

GPU MSRP 実売価格帯 VRAM
RTX 4090 $1,599 $1,600-$3,000+ 24GB
RTX 5090 $1,999 $1,999-$3,000+ 32GB

ローカル実行時のパフォーマンス

モデル ハードウェア 推論速度
GPT-OSS-20B MacBook Pro M3 Pro(18GB RAM) 約30トークン/秒
GPT-OSS-120B RTX 3090 + i9-14900K 約25トークン/秒

つまり、**RTX 4090一枚(約20万円)**で、GPT-OSS-20Bを快適に動かせます。

10分で始めるセットアップ方法

Macでの実行(Apple Silicon M1/M2/M3)

# Homebrewのインストール
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

# Ollamaのインストール
brew install ollama

# Ollamaサーバーの起動
ollama serve

# 別ターミナルでモデルをダウンロード・実行
ollama pull gpt-oss:20b
ollama run gpt-oss:20b

Hugging Faceからの直接ダウンロード

# Hugging Face CLIでウェイトをダウンロード
huggingface-cli download openai/gpt-oss-20b \
  --include "original/*" \
  --local-dir gpt-oss-20b/

# Transformersでの実行
pip install transformers torch accelerate

Dockerでの実行

FROM nvidia/cuda:12.1.0-base-ubuntu22.04

RUN apt-get update && apt-get install -y python3-pip
RUN pip3 install transformers torch accelerate

# モデルのダウンロードと実行
CMD ["python3", "run_gpt_oss.py"]

実世界のユースケース

1. エンタープライズ活用

  • RAG(Retrieval-Augmented Generation):企業内データと連携
  • ドキュメント生成:技術文書の自動作成
  • コード生成・レビュー:開発効率の向上
  • 意思決定支援:戦略立案のアシスタント

2. ヘルスケア分野

  • 臨床ガイドラインへの特化ファインチューニング
  • HIPAA準拠のローカル展開
  • 患者データ分析(プライバシー保護)
  • 医療研究支援

3. 開発者ツール

  • APIインテグレーション
  • システムアーキテクチャ設計
  • デバッグ支援
  • Chain-of-Thought推論による複雑な問題解決

4. エージェント型タスク

  • 自律的なツール呼び出し
  • マルチステップタスクの実行
  • 動的なソフトウェア環境との対話

賢い選択:コスト最適化の現実解

1. モデル選択フローチャート

予算は月額$500以下?
├─ YES → GPT-OSS-20B
│   ├─ ローカル実行可能?
│   │   ├─ YES → RTX 4090購入(初期投資20万円)
│   │   └─ NO → VAST.AI(RTX 4090: $0.40/時間)
│   └─ 推論速度: 30トークン/秒
│
└─ NO → GPT-OSS-120B
    ├─ 信頼性重視?
    │   ├─ YES → AWS/Azure(月額$5,000+)
    │   └─ NO → VAST.AI(月額$1,347)
    └─ 性能: AIME 97.9%精度

2. 隠れコストに注意

クラウドの隠れコスト

  • データ転送料: AWS/Azureは別途課金
  • ストレージ: モデル保存に追加料金
  • クォータ申請: 大手は承認待ち時間あり

VAST.AIの注意点

  • 可用性: 個人ホストのため不安定な場合あり
  • 信頼性: 99.7%程度(AWS/Azureは99.99%)
  • サポート: 限定的

3. 実践的な推奨構成

個人開発者・スタートアップ

モデル: GPT-OSS-20B
環境: 
  - 開発: ローカル(RTX 4090)
  - 本番: VAST.AI($0.40/時間)
月額予算: $300-500

エンタープライズ

モデル: GPT-OSS-120B
環境:
  - 開発: Lambda Labs($2.49/時間)
  - 本番: AWS EC2 P5(SLA保証)
月額予算: $2,000-6,000

研究・実験用途

モデル: 両モデルを使い分け
環境: VAST.AI(スポットインスタンス)
月額予算: $500-1,000

よくある質問と回答

Q: 本当に$1.87/時間で動くの?

A: はい、実際に動きます。 2025年8月8日時点のVAST.AI実測値です。ただし:

  • 可用性は保証されません
  • 価格は変動します
  • エンタープライズサポートはありません

Q: RTX 4090で120Bモデルは動く?

A: いいえ、VRAMが不足します。

  • RTX 4090: 24GB VRAM → 20Bモデルまで
  • 120Bモデル: 最低60GB VRAM必要

Q: 量化版の性能劣化は?

A: MXFP4量化では最小限です。

  • ベンチマーク精度: -1〜2%程度
  • 推論速度: むしろ向上
  • メモリ使用: 約25%削減

まとめ:GPT-OSSがもたらす民主化

GPT-OSSの登場により、以下が現実になりました:

🎯 主要ポイント

  1. 月額13万円でo4-mini級のAIを所有可能
  2. 20万円のGPUでローカル実行可能
  3. クラウド選択で4倍の価格差
  4. 完全オープンソースで商用利用OK

📊 コストパフォーマンス比較

選択肢 初期投資 月額コスト 性能
ChatGPT Plus $0 $20 制限あり
GPT-OSS-20B(ローカル) $2,000 $0 無制限
GPT-OSS-120B(VAST.AI) $0 $1,347 o4-mini超え
GPT-OSS-120B(AWS) $0 $5,450 同上+SLA

参考リンク


著者について: AI/MLエンジニアとして、LLMの実装と最適化に従事。本記事は2025年8月8日時点の実測データに基づいています。価格は変動する可能性があります。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?