はじめに — 2月19日、また新モデルが来た
2026年2月は異常だった。
- 2月4日:Claude Opus 4.6
- 2月5日:GPT-5.3-Codex
- 2月19日:Gemini 3.1 Pro
16日間で3つのフロンティアモデルがリリースされた。開発者としては嬉しい反面、追いかけるだけで体力が削られる。
今回はGemini 3.1 Proに焦点を当てる。Google公式が「core reasoningの進化」と謳っているが、実際のところどうなのか。ベンチマーク数値と、開発者視点での所感をまとめる。
スペック概要
| 項目 | Gemini 3.1 Pro |
|---|---|
| リリース | 2026年2月19日(プレビュー) |
| コンテキスト | 入力1Mトークン / 出力64Kトークン |
| 価格(〜200K) | 入力$2 / 出力$12(per 1Mトークン) |
| 価格(200K〜) | 入力$4 / 出力$18(per 1Mトークン) |
| 利用可能環境 | Gemini API, Vertex AI, AI Studio, Gemini CLI, GitHub Copilot, Antigravity |
注目すべきは出力64Kトークン。これまでのモデルと比べて大幅に長い。複雑なタスクを1ターンで完結できる可能性が広がった。
ベンチマーク — 数字だけ見ると圧倒的
推論
ARC-AGI-2で**77.1%**を記録。Gemini 3 Proの31.1%から2倍以上の伸び。Claude Opus 4.6の68.8%、GPT-5.2の52.9%も上回る。
GPQA Diamond(科学的知識)でも**94.3%**で、Opus 4.6の91.3%、GPT-5.2の92.4%を超えた。
コーディング
| ベンチマーク | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.3-Codex |
|---|---|---|---|
| LiveCodeBench Pro (Elo) | 2,887 | — | 2,393 |
| SWE-Bench Verified | 80.6% | 80.8% | — |
| Terminal-Bench 2.0 | 68.5% | — | 77.3% |
コーディングでも強い。ただし、ターミナル操作の自動化ではGPT-5.3-Codexが依然リード。SWE-Benchの実務バグ修正ではClaude Opus 4.6と僅差。
エージェント・ツール使用
ここが今回の目玉だと思う。
- MCP Atlas: 69.2%(全モデル中トップ)
- APEX-Agents: 33.5%
- Telecom Tool Use: 99.3%
MCP Atlasのスコアが示すのは、ツール選択と連携の精度。エージェント開発をしている身からすると、この数値は見逃せない。
さらにGoogleはgemini-3.1-pro-preview-customtoolsというエージェント特化エンドポイントを用意した。bash実行やファイル操作などのシステムツールを優先的に使うようチューニングされている。
正直な所感 — ベンチマークと実用のギャップ
良いところ
コスパが異常。Opus 4.6の$15/1M入力に対して$2。7.5倍の価格差がある。同等以上のベンチマークスコアでこの価格なら、プロダクション環境でのルーティング先として有力。
1Mコンテキストは実用的に効く。リポジトリ全体を投げてコード理解させる場合、コンテキスト長がボトルネックになることが多い。1Mトークンあれば中規模プロジェクトは丸ごと入る。
エージェント向け設計が明確。MCP Atlasの高スコアとcustomtoolsエンドポイントは、Googleが「エージェント時代」を本気で狙っている証拠。
惜しいところ
エキスパートタスクでの品質差。GDPval-AAのEloではClaude Sonnet 4.6が1,633、Gemini 3.1 Proが1,317。300ポイント以上の差がある。ベンチマークでは測れない「出力の丁寧さ」「文脈の読み取り」でClaude系が依然として強い。
プレビュー版であるという点。まだGA(一般提供)ではない。本番環境に投入するにはリスクがある。Googleはプレビュー期間中に改善を重ねると言っているが、安定性は要検証。
Antigravityのエコシステムがまだ成熟していない。AnthropicのMCPエコシステムと比べると、ツール連携の選択肢がまだ少ない。
3社比較 — 結局どう使い分ける?
2026年2月時点で、各モデルには明確な得意分野がある。
| 用途 | 推奨モデル | 理由 |
|---|---|---|
| 大量処理・コスト重視 | Gemini 3.1 Pro | 圧倒的コスパ。$2/1M入力 |
| コード品質・本番バグ修正 | Claude Opus 4.6 | SWE-Bench僅差リード。出力品質が高い |
| ターミナル自動化・CI/CD | GPT-5.3-Codex | Terminal-Bench 77.3%。速度も1,000 tok/s |
| 推論・科学的分析 | Gemini 3.1 Pro | ARC-AGI-2 77.1%、GPQA 94.3% |
| エージェント開発 | Gemini 3.1 Pro | MCP Atlas 69.2%。customtoolsエンドポイント |
| エキスパートレベルの品質 | Claude Sonnet/Opus 4.6 | GDPval-AA Elo 1,633で断トツ |
個人的には「1つのモデルで全部やる時代は終わった」と感じている。マルチモデルで使い分けるのが現実的な選択肢だ。
開発者としてのアクション
- Gemini APIでプレビュー版を試す — AI Studioから即座にアクセス可能
- customtoolsエンドポイントでエージェント構築 — ツール選択精度の向上を実感できるはず
- 既存のClaude/GPTワークフローとA/Bテスト — 同じタスクで出力品質を比較
- コスト試算 — 1Mトークンあたり$2は、大量処理で効いてくる
まとめ
Gemini 3.1 Proは「ベンチマーク番長」で終わるモデルではない。
$2/1M入力という価格、1Mトークンのコンテキスト、エージェント特化設計。この3つが揃ったことで、プロダクション環境での選択肢として無視できなくなった。
ただし「最強」かと言われると、そうではない。エキスパートタスクではClaude、ターミナル自動化ではGPT-5.3-Codexが上。万能モデルは存在しない。適材適所で使い分ける時代だ。
2026年のAI開発は、マルチモデル・オーケストレーションが前提になる。その中でGemini 3.1 Proは「コスパ最強の汎用枠」として、確実にポジションを取った。