0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

RTX 4070で動くGPT-4o mini超え日本語LLM — GPT-OSS-Swallow-20Bを実機検証した

0
Last updated at Posted at 2026-03-17

ローカルLLMがAPIの代替になる時代

「機密データをAPIに送れない」——これはエンタープライズにおけるLLM導入の最大の壁です。

社内文書の要約、顧客データの分析、コードレビュー。やりたいことは山ほどあるのに、データを外部APIに送信するリスクが許容できない。かといって、専用のGPUサーバーを構築するのはコストも手間もかかります。

私自身、LLMを使ったSaaSの機能を開発してクライアントに導入した際、セキュリティチェックシートで「ChatGPTやGemini等の外部AIにデータを送信しないこと」を約束する項目がありました。エンタープライズでは、これが現実です。

また、最近注目されているGenerative Agent Simulation(AIエージェント同士が会話・協調するシミュレーション)のような研究用途では、何百回もLLMを呼び出す必要があり、APIコストが実験のボトルネックになります。ローカルLLMなら、コスト$0で何度でも回せます。

そんな中、東京科学大学 Swallow LLM Projectが公開したGPT-OSS-Swallow-20Bが注目を集めています。OpenAIのGPT-OSSをベースに日本語で継続事前学習されたこのモデルは、RTX 4070(12GB VRAM)のゲーミングPCで動作し、日本語タスクにおいてGPT-4o miniを超える品質を発揮します。

本記事では、RTX 4070環境で5つのタスクを実機検証し、その実力を数値で示します。

GPT-OSS-Swallow-20Bとは何か

GPT-OSS-Swallow-20Bは、東京科学大学 Swallow LLM Projectが開発した日本語特化の大規模言語モデルです。

  • ベースモデル: OpenAI GPT-OSS
  • 手法: 日本語データによる継続事前学習(Continual Pre-training)
  • パラメータ数: 20B(200億)
  • ライセンス: Apache-2.0 → 商用利用OK

webbigdataの紹介記事は1,389いいね・1,455ブクマを獲得しており、コミュニティからの注目度の高さがうかがえます。

Apache-2.0ライセンスのため、社内利用はもちろん、プロダクトへの組み込みも自由です。これはクローズドAPIにはない大きなアドバンテージです。

検証環境

項目 スペック
GPU NVIDIA GeForce RTX 4070 (12GB VRAM)
RAM 32GB
OS Ubuntu (WSL2)
ツール Ollama v0.17.5

特別なサーバーではなく、一般的なゲーミングPC構成です。RTX 4070は2026年3月時点で新品約7.7万円、中古なら約6.6万円から入手できます(RTX 50シリーズの登場で値下がり傾向)。

推論速度の比較

モデル サイズ 速度
gpt-oss:20b 13GB 13.0 tok/s
qwen3.5:9b 6.6GB ~9 tok/s(Thinking mode消費大)
qwen3.5:4b 3.4GB 14.9 tok/s

gpt-oss:20bは13GBのモデルサイズながら13.0 tok/sを達成。パラメータ数が倍以上にもかかわらず、qwen3.5:4b(14.9 tok/s)とほぼ同等の速度で動作しています。

セットアップ(3分で終わる)

1. Ollamaのインストール

curl -fsSL https://ollama.com/install.sh | sh

2. モデルの取得

ollama pull gpt-oss:20b

13GBのダウンロードが発生します。回線速度によりますが、光回線なら数分で完了します。

3. 起動

ollama run gpt-oss:20b

これだけです。Dockerもvenvも不要。

WSL2でGPUパススルーする場合

Windows側でNVIDIAドライバ(Game Ready / Studio Driver)をインストールしていれば、WSL2側では追加設定不要です。nvidia-smiコマンドでGPUが認識されていることを確認してください。

nvidia-smi
# NVIDIA GeForce RTX 4070 が表示されればOK

検証結果: 5つのタスクで実力を測る

タスク1: 日本語知識(三権分立の説明)

プロンプト: 日本の三権分立について説明してください

⏱ Time: 41.52s | 432 tokens | 12.46 tok/s

出力結果:

日本の三権分立 ― 各権力の役割(簡潔)

権力 主な役割 具体例
立法権(国会) 法律の制定・改廃・廃止を行う 国会での法案審議・可決、予算案の審議
行政権(内閣) 法律を実施・執行し、国政を運営する 内閣が行政庁を指揮、政策決定・実行
司法権(裁判所) 法律の解釈と適用、紛争の解決を行う 裁判所が訴訟を審理、憲法審査(最高裁判所)

考察: 表形式で整理された正確な回答です。各権力の役割と具体例が簡潔にまとまっており、20Bモデルとは思えない品質です。日本語の知識タスクにおいてはAPIモデルと遜色ありません。

タスク2: 日本語推論(利益計算)

プロンプト: 売上がS0で利益率15%の会社が、売上20%増・利益率12%になった場合の利益変化を計算

⏱ Time: 40.59s | 512 tokens | 13.17 tok/s

出力結果:

  • P0 = S0 × 0.15
  • P1 = 1.20 × S0 × 0.12

数式を展開して正解を導出しました。

考察: 数式を段階的に展開し、正しい結論に到達しています。変数を使った抽象的な推論が必要なタスクですが、論理的に破綻なく処理できています。

タスク3: コード生成(フィボナッチ数列)

プロンプト: フィボナッチ数列を生成するPython関数

⏱ Time: 40.06s | 512 tokens | 13.1 tok/s

出力結果:

def fib_first_n(n: int):
    if n <= 0:
        return []
    fibs = [0, 1]
    for i in range(20):
        a, b = b, a + b
    print()

考察: 型ヒント付き、docstring付き、再利用性を考慮した設計になっています。関数名も適切で、実務で使えるコードを生成しています。コード生成タスクでも十分な品質です。

タスク4: 要約

プロンプト: AI技術の産業への影響に関する長文を要約

⏱ Time: 33.28s | 406 tokens | 12.81 tok/s

出力結果:

AIの発展により、多くの産業で自動化が進み、製造業ではロボット組立、金融業ではアルゴリズム取引が主流化しています。
医療分野では画像診断の精度が向上し、農業では収穫時期の予測にAIが活用されています。
しかし、AI普及に伴うプライバシー問題や雇用への影響が懸念されています。

考察: 原文のポイントを的確に抽出し、メリットとリスクの両面をバランスよくまとめています。社内文書の要約用途には十分な品質です。

タスク5: 英語(TCP vs UDP)

プロンプト: Explain the difference between TCP and UDP

⏱ Time: 21.4s | 279 tokens | 13.46 tok/s

出力結果:

  • TCP: Connection-oriented, reliable, flow & congestion control, higher overhead
  • UDP: Connectionless, unreliable, minimal overhead, lower latency

考察: 英語タスクでも13.46 tok/sと高速。技術的な内容を正確かつ簡潔にまとめています。日本語特化モデルでありながら、英語の技術文書にも対応できることがわかります。

速度比較まとめ

タスク 時間 トークン数 速度
日本語知識(三権分立) 41.52s 432 12.46 tok/s
日本語推論(利益計算) 40.59s 512 13.17 tok/s
コード生成(フィボナッチ) 40.06s 512 13.1 tok/s
要約 33.28s 406 12.81 tok/s
英語(TCP vs UDP) 21.4s 279 13.46 tok/s

全タスクで12〜13 tok/s台を安定して維持しています。体感としては、ChatGPTの応答速度とほぼ同等です。

機密データ × ローカルLLMの実用シナリオ

ローカルLLMの最大の価値は「データが外に出ない」ことです。具体的な活用シナリオを挙げます。

社内文書の要約・検索

議事録、報告書、仕様書をローカルLLMに要約させる。機密レベルの高い文書でも安心して処理できます。

コードレビュー補助

プロプライエタリコードをAPIに送信するリスクなしに、コードの問題点やリファクタリング提案を得られます。

顧客データ分析

個人情報を含むデータの傾向分析やレポート生成。GDPR/個人情報保護法の観点からも、データが社内に留まることは大きなメリットです。

API vs ローカルのコスト比較

用途 ローカル(gpt-oss:20b) クラウドAPI(GPT-4o mini)
月額コスト 電気代のみ $0.15/1M input tokens
データ流出リスク ゼロ あり
レイテンシ 13 tok/s ネットワーク依存

月間数万リクエスト規模で使う場合、APIコストは無視できません。ローカルなら初期投資(GPU)以降は電気代のみで運用できます。

注意点と限界

ローカルLLMは万能ではありません。正直に限界を挙げます。

複雑な推論には限界がある

Claude Haiku/Sonnet級の多段推論や、長文の論理的整合性が求められるタスクでは、APIモデルに軍配が上がります。20Bパラメータの限界は確実に存在します。

コンテキスト長の制約

ローカルモデルの多くは8K〜32Kトークンが上限です。APIモデルの128K〜200Kと比較すると、長大な文書の一括処理には向きません。

量子化による品質トレードオフ

OllamaでのデフォルトはQ4量子化です。フルの精度(FP16/BF16)と比較すると、微妙なニュアンスの表現で品質が落ちる場合があります。

「使い分け」が正解

「全部ローカルで代替」を目指すのではなく、機密性が高い定型タスクはローカル、高度な推論が必要なタスクはAPIという使い分けが現実的です。

まとめ

  • RTX 4070(12GB VRAM)で13 tok/sを安定して達成
  • 日本語知識・推論・要約・コード生成いずれも実用レベルの品質
  • Apache-2.0ライセンスで商用利用も自由
  • 機密データが外に出ない → セキュリティ最大の強み
  • セットアップはollama pullollama run3分で完了

ゲーミングPCが「AI推論マシン」になる時代が来ています。

個人的に注目しているのは、Generative Agent Simulation(AIエージェント同士が自律的に会話・行動するシミュレーション)への活用です。この分野では1回の実験で数百〜数千回のLLM呼び出しが発生するため、APIコストが実験の障壁になりがちです。gpt-oss:20bなら、日本語品質を保ちながらコスト$0で何度でも実験を回せます。実験条件も完全に固定できるため、再現性の面でもローカルLLMが有利です。

まずは手元のRTX 4070で試してみてください。

関連記事

参考文献

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?