Gemini 3.1 Pro を発表翌日に触ってみた — ベンチマーク番長か、実力派か

Posted at 2026-02-20

はじめに — 2月19日、また新モデルが来た

2026年2月は異常だった。

16日間で3つのフロンティアモデルがリリースされた。開発者としては嬉しい反面、追いかけるだけで体力が削られる。

今回はGemini 3.1 Proに焦点を当てる。Google公式が「core reasoningの進化」と謳っているが、実際のところどうなのか。ベンチマーク数値と、開発者視点での所感をまとめる。

項目	Gemini 3.1 Pro
リリース	2026年2月19日（プレビュー）
コンテキスト	入力1Mトークン / 出力64Kトークン
価格（〜200K）	入力$2 / 出力$12（per 1Mトークン）
価格（200K〜）	入力$4 / 出力$18（per 1Mトークン）
利用可能環境	Gemini API, Vertex AI, AI Studio, Gemini CLI, GitHub Copilot, Antigravity

注目すべきは出力64Kトークン。これまでのモデルと比べて大幅に長い。複雑なタスクを1ターンで完結できる可能性が広がった。

ARC-AGI-2で**77.1%**を記録。Gemini 3 Proの31.1%から2倍以上の伸び。Claude Opus 4.6の68.8%、GPT-5.2の52.9%も上回る。

GPQA Diamond（科学的知識）でも**94.3%**で、Opus 4.6の91.3%、GPT-5.2の92.4%を超えた。

ベンチマーク	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.3-Codex
LiveCodeBench Pro (Elo)	2,887	—	2,393
SWE-Bench Verified	80.6%	80.8%	—
Terminal-Bench 2.0	68.5%	—	77.3%

コーディングでも強い。ただし、ターミナル操作の自動化ではGPT-5.3-Codexが依然リード。SWE-Benchの実務バグ修正ではClaude Opus 4.6と僅差。

ここが今回の目玉だと思う。

MCP Atlasのスコアが示すのは、ツール選択と連携の精度。エージェント開発をしている身からすると、この数値は見逃せない。

さらにGoogleはgemini-3.1-pro-preview-customtoolsというエージェント特化エンドポイントを用意した。bash実行やファイル操作などのシステムツールを優先的に使うようチューニングされている。

コスパが異常。Opus 4.6の$15/1M入力に対して$2。7.5倍の価格差がある。同等以上のベンチマークスコアでこの価格なら、プロダクション環境でのルーティング先として有力。

1Mコンテキストは実用的に効く。リポジトリ全体を投げてコード理解させる場合、コンテキスト長がボトルネックになることが多い。1Mトークンあれば中規模プロジェクトは丸ごと入る。

エージェント向け設計が明確。MCP Atlasの高スコアとcustomtoolsエンドポイントは、Googleが「エージェント時代」を本気で狙っている証拠。

エキスパートタスクでの品質差。GDPval-AAのEloではClaude Sonnet 4.6が1,633、Gemini 3.1 Proが1,317。300ポイント以上の差がある。ベンチマークでは測れない「出力の丁寧さ」「文脈の読み取り」でClaude系が依然として強い。

プレビュー版であるという点。まだGA（一般提供）ではない。本番環境に投入するにはリスクがある。Googleはプレビュー期間中に改善を重ねると言っているが、安定性は要検証。

Antigravityのエコシステムがまだ成熟していない。AnthropicのMCPエコシステムと比べると、ツール連携の選択肢がまだ少ない。

2026年2月時点で、各モデルには明確な得意分野がある。

用途	推奨モデル	理由
大量処理・コスト重視	Gemini 3.1 Pro	圧倒的コスパ。$2/1M入力
コード品質・本番バグ修正	Claude Opus 4.6	SWE-Bench僅差リード。出力品質が高い
ターミナル自動化・CI/CD	GPT-5.3-Codex	Terminal-Bench 77.3%。速度も1,000 tok/s
推論・科学的分析	Gemini 3.1 Pro	ARC-AGI-2 77.1%、GPQA 94.3%
エージェント開発	Gemini 3.1 Pro	MCP Atlas 69.2%。customtoolsエンドポイント
エキスパートレベルの品質	Claude Sonnet/Opus 4.6	GDPval-AA Elo 1,633で断トツ

個人的には「1つのモデルで全部やる時代は終わった」と感じている。マルチモデルで使い分けるのが現実的な選択肢だ。

Gemini 3.1 Proは「ベンチマーク番長」で終わるモデルではない。

$2/1M入力という価格、1Mトークンのコンテキスト、エージェント特化設計。この3つが揃ったことで、プロダクション環境での選択肢として無視できなくなった。

ただし「最強」かと言われると、そうではない。エキスパートタスクではClaude、ターミナル自動化ではGPT-5.3-Codexが上。万能モデルは存在しない。適材適所で使い分ける時代だ。

2026年のAI開発は、マルチモデル・オーケストレーションが前提になる。その中でGemini 3.1 Proは「コスパ最強の汎用枠」として、確実にポジションを取った。