gpt-oss-120BがCPUで動かせるときいて試してみた

Posted at 2025-08-13

LMStudioでgpt-oss-20Bは動かせても120Bは無理だなと思っていたのですが、どうもllama.cppのCPUモードで動かせるらしいということで、試してみました。

gpt-oss-120bをダウンロードすると、右下に「部分的なGPUオフロードが可能」と表示され、自動的にGPUとCPUの併用が行われるようです。

MXFP4で4ビット量子化ですので、60+α GB程度をGPU+CPUで使える環境なら動くということのようです（試したマシンはi9-10900K 128GB、RTX3090 24GB)

アイドル時にCPUメモリーを20GB、GPUメモリーを3.4GB程度使っている状態から、gpt-oss-120BをロードするとCPUメモリーが64GB、GPUメモリーが20.8GB使用中になりましたので、大体CPUメモリーを44GB、GPUメモリー16GBに振り分けたようです。

gpt-oss-120Bとgpt-oss-20Bに「gpt-oss-120Bとgpt-oss-20Bの違いは？」という同じ質問をしてみました。

20Bがときどき適当なことを言っているのがこうして並べると浮き彫りになります。とはいえ、すべてGPUで動かせる20Bに比べて120Bは20倍以上遅いため、20Bではうまくいかないときだけ120Bという使い分けでしょうか。

gpt-oss-120B

GPT‑OSS 120B と GPT‑OSS 20B の主な違い

項目	GPT‑OSS 120B	GPT‑OSS 20B
パラメータ数	約 120 億 (1.2 × 10¹¹)	約 20 億 (2.0 × 10¹⁰)
モデルサイズ（ディスク）	約 250 GB（FP16）／約 500 GB（FP32）	約 40 GB（FP16）／約 80 GB（FP32）
計算リソース	大規模 GPU クラスタが必須（8×A100 80 GB 以上、または同等の TPU）	中規模 GPU（1〜4×A100 40/80 GB、V100 16 GB でも可）
トレーニングデータ量	同一コーパスを使っているが、120B はより多くのステップで学習し、長期依存性や稀なパターンを捕捉	データは同じだがエポック数・ステップ数が少ないため、一般的な言語理解はカバーするが、極めてまれな知識は弱い
性能（ベンチマーク）	- MMLU: 78 % 以上 - HumanEval (コード): 63 % - 推論速度: 大きさの割に最適化されているが、レイテンシは 20B の約2‑3倍	- MMLU: 約 70 % - HumanEval: 48 % - 推論速度: 小さいのでレイテンシは低く、リアルタイム応答に向く
用途の適合性	- 高度な専門領域（医学・法律・科学技術）での質問応答 - 長文生成や要約、複雑なコード生成 - 大規模マルチタスク学習が必要な研究開発	- チャットボットやカスタマーサポート等の汎用対話 - 中規模テキスト生成（ブログ記事・ニュース要約） - 限られたハードウェア環境でのデプロイ
コスト	訓練・推論ともに高額（GPU 時間、電力、インフラ）	訓練は比較的安価。推論コストも 5‑10 倍低く抑えられる
エコシステムのサポート	最新の DeepSpeed / ZeRO‑3 最適化が標準装備。分散チェックポイントやパラメータ圧縮ツールが充実	同様に DeepSpeed が利用可能だが、最適化オプションは 120B に比べシンプル

1. パラメータ数とスケーリング効果

スケーリング法則（Kaplan et al., 2020）によれば、パラメータを増やすほど「少数ショット」性能が指数的に向上する。120B は 20B の約6倍のパラメータであり、特に 稀なトークン列 や 長期依存関係 を扱う際に顕著に差が出ます。
ただし、スケールアップは 飽和点 にも近づきやすく、タスクによっては 20B と大差が見えないことがあります（例：基本的な文法判定や日常会話）。

2. ハードウェア要件とデプロイ

シナリオ	推奨ハードウェア (120B)	推奨ハードウェア (20B)
研究用ローカルクラスター	8 × NVIDIA A100‑80GB（NVLink）＋高速 NVMe ストレージ	1 × A100‑40GB または V100‑32GB
クラウド推論 (低遅延)	多ノード分散推論（Tensor Parallelism 8）	単一インスタンスで済む（GPU メモリ 24‑32 GB）
エッジ/オンプレミス	現実的ではない	可能（量子化・LoRA でさらに軽量化）

3. 実際の選択指針

タスクが高度に専門的かつ正確性を最優先 → 120B を選ぶ。特に「医療診断支援」や「法務文書自動生成」など、誤情報が致命的になる領域で有利です。
リアルタイム対話・コスト制約が強い → 20B が実用的。レスポンスは数十ミリ秒レベルに抑えやすく、運用費も低減できます。
開発リソースが限られる → まずは 20B でプロトタイプを作り、必要に応じて 120B にスケールアップする戦略が安全です。

まとめ

サイズの違い：120B はパラメータ数・モデル容量が6倍以上。これにより「知識深度」「長文保持力」が大幅向上しますが、ハードウェアとコストは比例して増加。
性能差：ベンチマークで 5‑10 % 程度のスコア向上が一般的。特に稀なトピックや長い文脈が必要なタスクで顕著です。
運用面：20B はデプロイしやすく、低遅延・低コストが実現できる。一方、120B は大規模インフラが必須だが、最高レベルの品質を求める場合に適しています。

用途とリソースバランスを考慮して、どちらのモデルが自分のプロジェクトに最も合っているか判断すると良いでしょう。

5.01 tok/sec • 1447 tokens • 1.25s to first token • Stop reason: EOS Token Found

gpt-oss-20B

GPT‑OSS 120 B vs GPT‑OSS 20 B

（Open‑Source Large Language Models released by OpenAI / Meta? – the “GPT‑OSS” family）

項目	GPT‑OSS 120 B	GPT‑OSS 20 B
パラメータ数	約 120 billion (1.2×10¹⁰)	約 20 billion (2.0×10⁹)
アーキテクチャ	Transformer‑XL / GPT‑3 style, 96 layers, 32 attention heads per layer, 12288 hidden size	Same core architecture but with 48 layers, 16 heads, 5120 hidden size
学習データ量	約 1 PB（≈ 6 B tokens）	約 200 GB（≈ 1.2 B tokens）
計算コスト (推論時)	10‑30×より大きい、GPU 16‑32GBが推奨	5‑10×程度で、8‑12GB GPUで実行可能
トレーニング時間	数千〜数万 GPU‑hour（例：4 kGPU‑days on A100）	約500–1,000 GPU‑hours（約3–6 kGPU‑days on A100）
精度／性能	文脈理解・長文生成、推論タスクで 5–10% 上位。大型モデルは長い依存関係を扱える	中規模モデルより劣るが、実用レベルの回答品質。短文・単純な会話には十分
デプロイ	大規模クラウド環境／複数GPUで分散推論が必要	単一 GPU / CPU でも動作可能（ただし速度は低下）
使用例	高度な要約、創造的文章生成、専門知識タスク、長文対話	チャットボット、FAQ 自動応答、コード補完、簡易翻訳
メモリ占有量 (FP16)	≈ 240 GB（推論時）	≈ 40 GB（推論時）
ライセンス	OSS‑MIT / Apache‑2.0（モデル重みは商用利用可）	同上

主な違いポイント

スケールとパラメータ数
- 120B は 20B の 6 倍程度のパラメータを持ち、より多くの言語表現・文脈情報を学習できます。
- 20B は「中規模」モデルで、多くの実務環境（エッジデバイスや小規模クラウド）にフィットします。
トレーニングコスト
- 大型モデルは数千〜数万 GPU‑hour を必要とし、学習時に多大な計算リソースがかかります。
- 20B は約 1/10 程度のコストで済むため、研究・実務チームで扱いやすいです。
推論性能
- 推論速度はパラメータ数に比例するため、120B は 20B の 2–3 倍遅くなります。
- ただし、120B が長文生成や複雑な推論タスクで顕著に優れた性能を示します。
用途の違い
- 120B は「高品質・高度タスク向け」：学術的要約、創造的ライティング、大規模対話システム。
- 20B は「実務導入向け」：チャットボット、FAQ、自動化ツール。
デプロイ環境
- 120B は複数 GPU（8‑16枚）で分散推論が必要。
- 20B は単一 GPU／CPU でも実行可能（ただし速度は低下）。

まとめ

120 B：大規模・高精度・長文対応。学習・デプロイに多くのリソースが必要。
20 B：中規模でコスト効率良好。実務環境や制約のあるハードウェアでも動作可能。

選択は「タスクの難易度」「利用できる計算資源」「デプロイ先」のバランスに基づいて行うとよいでしょう。

110.88 tok/sec • 1068 tokens • 0.41s to first token • Stop reason: EOS Token Found

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up