ローカルLLMがAPIの代替になる時代
「機密データをAPIに送れない」——これはエンタープライズにおけるLLM導入の最大の壁です。
社内文書の要約、顧客データの分析、コードレビュー。やりたいことは山ほどあるのに、データを外部APIに送信するリスクが許容できない。かといって、専用のGPUサーバーを構築するのはコストも手間もかかります。
私自身、LLMを使ったSaaSの機能を開発してクライアントに導入した際、セキュリティチェックシートで「ChatGPTやGemini等の外部AIにデータを送信しないこと」を約束する項目がありました。エンタープライズでは、これが現実です。
また、最近注目されているGenerative Agent Simulation(AIエージェント同士が会話・協調するシミュレーション)のような研究用途では、何百回もLLMを呼び出す必要があり、APIコストが実験のボトルネックになります。ローカルLLMなら、コスト$0で何度でも回せます。
そんな中、東京科学大学 Swallow LLM Projectが公開したGPT-OSS-Swallow-20Bが注目を集めています。OpenAIのGPT-OSSをベースに日本語で継続事前学習されたこのモデルは、RTX 4070(12GB VRAM)のゲーミングPCで動作し、日本語タスクにおいてGPT-4o miniを超える品質を発揮します。
本記事では、RTX 4070環境で5つのタスクを実機検証し、その実力を数値で示します。
GPT-OSS-Swallow-20Bとは何か
GPT-OSS-Swallow-20Bは、東京科学大学 Swallow LLM Projectが開発した日本語特化の大規模言語モデルです。
- ベースモデル: OpenAI GPT-OSS
- 手法: 日本語データによる継続事前学習(Continual Pre-training)
- パラメータ数: 20B(200億)
- ライセンス: Apache-2.0 → 商用利用OK
webbigdataの紹介記事は1,389いいね・1,455ブクマを獲得しており、コミュニティからの注目度の高さがうかがえます。
Apache-2.0ライセンスのため、社内利用はもちろん、プロダクトへの組み込みも自由です。これはクローズドAPIにはない大きなアドバンテージです。
検証環境
| 項目 | スペック |
|---|---|
| GPU | NVIDIA GeForce RTX 4070 (12GB VRAM) |
| RAM | 32GB |
| OS | Ubuntu (WSL2) |
| ツール | Ollama v0.17.5 |
特別なサーバーではなく、一般的なゲーミングPC構成です。RTX 4070は2026年3月時点で新品約7.7万円、中古なら約6.6万円から入手できます(RTX 50シリーズの登場で値下がり傾向)。
推論速度の比較
| モデル | サイズ | 速度 |
|---|---|---|
| gpt-oss:20b | 13GB | 13.0 tok/s |
| qwen3.5:9b | 6.6GB | ~9 tok/s(Thinking mode消費大) |
| qwen3.5:4b | 3.4GB | 14.9 tok/s |
gpt-oss:20bは13GBのモデルサイズながら13.0 tok/sを達成。パラメータ数が倍以上にもかかわらず、qwen3.5:4b(14.9 tok/s)とほぼ同等の速度で動作しています。
セットアップ(3分で終わる)
1. Ollamaのインストール
curl -fsSL https://ollama.com/install.sh | sh
2. モデルの取得
ollama pull gpt-oss:20b
13GBのダウンロードが発生します。回線速度によりますが、光回線なら数分で完了します。
3. 起動
ollama run gpt-oss:20b
これだけです。Dockerもvenvも不要。
WSL2でGPUパススルーする場合
Windows側でNVIDIAドライバ(Game Ready / Studio Driver)をインストールしていれば、WSL2側では追加設定不要です。nvidia-smiコマンドでGPUが認識されていることを確認してください。
nvidia-smi
# NVIDIA GeForce RTX 4070 が表示されればOK
検証結果: 5つのタスクで実力を測る
タスク1: 日本語知識(三権分立の説明)
プロンプト: 日本の三権分立について説明してください
⏱ Time: 41.52s | 432 tokens | 12.46 tok/s
出力結果:
日本の三権分立 ― 各権力の役割(簡潔)
| 権力 | 主な役割 | 具体例 |
|---|---|---|
| 立法権(国会) | 法律の制定・改廃・廃止を行う | 国会での法案審議・可決、予算案の審議 |
| 行政権(内閣) | 法律を実施・執行し、国政を運営する | 内閣が行政庁を指揮、政策決定・実行 |
| 司法権(裁判所) | 法律の解釈と適用、紛争の解決を行う | 裁判所が訴訟を審理、憲法審査(最高裁判所) |
考察: 表形式で整理された正確な回答です。各権力の役割と具体例が簡潔にまとまっており、20Bモデルとは思えない品質です。日本語の知識タスクにおいてはAPIモデルと遜色ありません。
タスク2: 日本語推論(利益計算)
プロンプト: 売上がS0で利益率15%の会社が、売上20%増・利益率12%になった場合の利益変化を計算
⏱ Time: 40.59s | 512 tokens | 13.17 tok/s
出力結果:
- P0 = S0 × 0.15
- P1 = 1.20 × S0 × 0.12
数式を展開して正解を導出しました。
考察: 数式を段階的に展開し、正しい結論に到達しています。変数を使った抽象的な推論が必要なタスクですが、論理的に破綻なく処理できています。
タスク3: コード生成(フィボナッチ数列)
プロンプト: フィボナッチ数列を生成するPython関数
⏱ Time: 40.06s | 512 tokens | 13.1 tok/s
出力結果:
def fib_first_n(n: int):
if n <= 0:
return []
fibs = [0, 1]
for i in range(20):
a, b = b, a + b
print()
考察: 型ヒント付き、docstring付き、再利用性を考慮した設計になっています。関数名も適切で、実務で使えるコードを生成しています。コード生成タスクでも十分な品質です。
タスク4: 要約
プロンプト: AI技術の産業への影響に関する長文を要約
⏱ Time: 33.28s | 406 tokens | 12.81 tok/s
出力結果:
AIの発展により、多くの産業で自動化が進み、製造業ではロボット組立、金融業ではアルゴリズム取引が主流化しています。
医療分野では画像診断の精度が向上し、農業では収穫時期の予測にAIが活用されています。
しかし、AI普及に伴うプライバシー問題や雇用への影響が懸念されています。
考察: 原文のポイントを的確に抽出し、メリットとリスクの両面をバランスよくまとめています。社内文書の要約用途には十分な品質です。
タスク5: 英語(TCP vs UDP)
プロンプト: Explain the difference between TCP and UDP
⏱ Time: 21.4s | 279 tokens | 13.46 tok/s
出力結果:
- TCP: Connection-oriented, reliable, flow & congestion control, higher overhead
- UDP: Connectionless, unreliable, minimal overhead, lower latency
考察: 英語タスクでも13.46 tok/sと高速。技術的な内容を正確かつ簡潔にまとめています。日本語特化モデルでありながら、英語の技術文書にも対応できることがわかります。
速度比較まとめ
| タスク | 時間 | トークン数 | 速度 |
|---|---|---|---|
| 日本語知識(三権分立) | 41.52s | 432 | 12.46 tok/s |
| 日本語推論(利益計算) | 40.59s | 512 | 13.17 tok/s |
| コード生成(フィボナッチ) | 40.06s | 512 | 13.1 tok/s |
| 要約 | 33.28s | 406 | 12.81 tok/s |
| 英語(TCP vs UDP) | 21.4s | 279 | 13.46 tok/s |
全タスクで12〜13 tok/s台を安定して維持しています。体感としては、ChatGPTの応答速度とほぼ同等です。
機密データ × ローカルLLMの実用シナリオ
ローカルLLMの最大の価値は「データが外に出ない」ことです。具体的な活用シナリオを挙げます。
社内文書の要約・検索
議事録、報告書、仕様書をローカルLLMに要約させる。機密レベルの高い文書でも安心して処理できます。
コードレビュー補助
プロプライエタリコードをAPIに送信するリスクなしに、コードの問題点やリファクタリング提案を得られます。
顧客データ分析
個人情報を含むデータの傾向分析やレポート生成。GDPR/個人情報保護法の観点からも、データが社内に留まることは大きなメリットです。
API vs ローカルのコスト比較
| 用途 | ローカル(gpt-oss:20b) | クラウドAPI(GPT-4o mini) |
|---|---|---|
| 月額コスト | 電気代のみ | $0.15/1M input tokens |
| データ流出リスク | ゼロ | あり |
| レイテンシ | 13 tok/s | ネットワーク依存 |
月間数万リクエスト規模で使う場合、APIコストは無視できません。ローカルなら初期投資(GPU)以降は電気代のみで運用できます。
注意点と限界
ローカルLLMは万能ではありません。正直に限界を挙げます。
複雑な推論には限界がある
Claude Haiku/Sonnet級の多段推論や、長文の論理的整合性が求められるタスクでは、APIモデルに軍配が上がります。20Bパラメータの限界は確実に存在します。
コンテキスト長の制約
ローカルモデルの多くは8K〜32Kトークンが上限です。APIモデルの128K〜200Kと比較すると、長大な文書の一括処理には向きません。
量子化による品質トレードオフ
OllamaでのデフォルトはQ4量子化です。フルの精度(FP16/BF16)と比較すると、微妙なニュアンスの表現で品質が落ちる場合があります。
「使い分け」が正解
「全部ローカルで代替」を目指すのではなく、機密性が高い定型タスクはローカル、高度な推論が必要なタスクはAPIという使い分けが現実的です。
まとめ
- RTX 4070(12GB VRAM)で13 tok/sを安定して達成
- 日本語知識・推論・要約・コード生成いずれも実用レベルの品質
- Apache-2.0ライセンスで商用利用も自由
- 機密データが外に出ない → セキュリティ最大の強み
- セットアップは
ollama pull→ollama runの3分で完了
ゲーミングPCが「AI推論マシン」になる時代が来ています。
個人的に注目しているのは、Generative Agent Simulation(AIエージェント同士が自律的に会話・行動するシミュレーション)への活用です。この分野では1回の実験で数百〜数千回のLLM呼び出しが発生するため、APIコストが実験の障壁になりがちです。gpt-oss:20bなら、日本語品質を保ちながらコスト$0で何度でも実験を回せます。実験条件も完全に固定できるため、再現性の面でもローカルLLMが有利です。
まずは手元のRTX 4070で試してみてください。