2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Gemini 3.1 Pro を発表翌日に触ってみた — ベンチマーク番長か、実力派か

2
Posted at

はじめに — 2月19日、また新モデルが来た

2026年2月は異常だった。

  • 2月4日:Claude Opus 4.6
  • 2月5日:GPT-5.3-Codex
  • 2月19日:Gemini 3.1 Pro

16日間で3つのフロンティアモデルがリリースされた。開発者としては嬉しい反面、追いかけるだけで体力が削られる。

今回はGemini 3.1 Proに焦点を当てる。Google公式が「core reasoningの進化」と謳っているが、実際のところどうなのか。ベンチマーク数値と、開発者視点での所感をまとめる。

スペック概要

項目 Gemini 3.1 Pro
リリース 2026年2月19日(プレビュー)
コンテキスト 入力1Mトークン / 出力64Kトークン
価格(〜200K) 入力$2 / 出力$12(per 1Mトークン)
価格(200K〜) 入力$4 / 出力$18(per 1Mトークン)
利用可能環境 Gemini API, Vertex AI, AI Studio, Gemini CLI, GitHub Copilot, Antigravity

注目すべきは出力64Kトークン。これまでのモデルと比べて大幅に長い。複雑なタスクを1ターンで完結できる可能性が広がった。

ベンチマーク — 数字だけ見ると圧倒的

推論

ARC-AGI-2で**77.1%**を記録。Gemini 3 Proの31.1%から2倍以上の伸び。Claude Opus 4.6の68.8%、GPT-5.2の52.9%も上回る。

GPQA Diamond(科学的知識)でも**94.3%**で、Opus 4.6の91.3%、GPT-5.2の92.4%を超えた。

コーディング

ベンチマーク Gemini 3.1 Pro Claude Opus 4.6 GPT-5.3-Codex
LiveCodeBench Pro (Elo) 2,887 2,393
SWE-Bench Verified 80.6% 80.8%
Terminal-Bench 2.0 68.5% 77.3%

コーディングでも強い。ただし、ターミナル操作の自動化ではGPT-5.3-Codexが依然リード。SWE-Benchの実務バグ修正ではClaude Opus 4.6と僅差。

エージェント・ツール使用

ここが今回の目玉だと思う。

  • MCP Atlas: 69.2%(全モデル中トップ)
  • APEX-Agents: 33.5%
  • Telecom Tool Use: 99.3%

MCP Atlasのスコアが示すのは、ツール選択と連携の精度。エージェント開発をしている身からすると、この数値は見逃せない。

さらにGoogleはgemini-3.1-pro-preview-customtoolsというエージェント特化エンドポイントを用意した。bash実行やファイル操作などのシステムツールを優先的に使うようチューニングされている。

正直な所感 — ベンチマークと実用のギャップ

良いところ

コスパが異常。Opus 4.6の$15/1M入力に対して$2。7.5倍の価格差がある。同等以上のベンチマークスコアでこの価格なら、プロダクション環境でのルーティング先として有力。

1Mコンテキストは実用的に効く。リポジトリ全体を投げてコード理解させる場合、コンテキスト長がボトルネックになることが多い。1Mトークンあれば中規模プロジェクトは丸ごと入る。

エージェント向け設計が明確。MCP Atlasの高スコアとcustomtoolsエンドポイントは、Googleが「エージェント時代」を本気で狙っている証拠。

惜しいところ

エキスパートタスクでの品質差。GDPval-AAのEloではClaude Sonnet 4.6が1,633、Gemini 3.1 Proが1,317。300ポイント以上の差がある。ベンチマークでは測れない「出力の丁寧さ」「文脈の読み取り」でClaude系が依然として強い。

プレビュー版であるという点。まだGA(一般提供)ではない。本番環境に投入するにはリスクがある。Googleはプレビュー期間中に改善を重ねると言っているが、安定性は要検証。

Antigravityのエコシステムがまだ成熟していない。AnthropicのMCPエコシステムと比べると、ツール連携の選択肢がまだ少ない。

3社比較 — 結局どう使い分ける?

2026年2月時点で、各モデルには明確な得意分野がある。

用途 推奨モデル 理由
大量処理・コスト重視 Gemini 3.1 Pro 圧倒的コスパ。$2/1M入力
コード品質・本番バグ修正 Claude Opus 4.6 SWE-Bench僅差リード。出力品質が高い
ターミナル自動化・CI/CD GPT-5.3-Codex Terminal-Bench 77.3%。速度も1,000 tok/s
推論・科学的分析 Gemini 3.1 Pro ARC-AGI-2 77.1%、GPQA 94.3%
エージェント開発 Gemini 3.1 Pro MCP Atlas 69.2%。customtoolsエンドポイント
エキスパートレベルの品質 Claude Sonnet/Opus 4.6 GDPval-AA Elo 1,633で断トツ

個人的には「1つのモデルで全部やる時代は終わった」と感じている。マルチモデルで使い分けるのが現実的な選択肢だ。

開発者としてのアクション

  1. Gemini APIでプレビュー版を試す — AI Studioから即座にアクセス可能
  2. customtoolsエンドポイントでエージェント構築 — ツール選択精度の向上を実感できるはず
  3. 既存のClaude/GPTワークフローとA/Bテスト — 同じタスクで出力品質を比較
  4. コスト試算 — 1Mトークンあたり$2は、大量処理で効いてくる

まとめ

Gemini 3.1 Proは「ベンチマーク番長」で終わるモデルではない。

$2/1M入力という価格、1Mトークンのコンテキスト、エージェント特化設計。この3つが揃ったことで、プロダクション環境での選択肢として無視できなくなった。

ただし「最強」かと言われると、そうではない。エキスパートタスクではClaude、ターミナル自動化ではGPT-5.3-Codexが上。万能モデルは存在しない。適材適所で使い分ける時代だ。

2026年のAI開発は、マルチモデル・オーケストレーションが前提になる。その中でGemini 3.1 Proは「コスパ最強の汎用枠」として、確実にポジションを取った。

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?