はじめに
2026年2月、GoogleはGemini 3モデルファミリーの中でも特に推論能力を強化したGemini 3 Deep Thinkを発表しました。数学・科学・エンジニアリングの複雑な課題に対して、複数の仮説を並行探索しながら段階的に思考するモデルです。
この記事では、Gemini 3 Deep ThinkのAPIを使った実装方法を解説します。
この記事で学べること
- Gemini 3 Deep Thinkの仕組みと従来モデルとの違い
-
ThinkingConfigを使ったAPI実装方法(Python) - ベンチマーク比較データ(AIME 2025・GPQA Diamond・ARC-AGI-2)
- 利用プランと料金の選び方
- 思考深度(LOW / MEDIUM / HIGH)の使い分け
対象読者
- Gemini APIを使ってアプリケーションを構築しているエンジニア
- 推論・科学計算タスクにLLMを活用したい方
- Gemini 3シリーズのモデル選定を検討している方
前提環境
- Python 3.10+
-
google-genaiSDKインストール済み - Google AI Studio / Gemini APIキー取得済み
TL;DR
- Gemini 3 Deep ThinkはGoogleの推論特化モデル。数学・科学・エンジニアリングに強い
- APIでは
ThinkingConfig(thinking_level=ThinkingLevel.HIGH)で有効化 - ARC-AGI-2で45.1%、AIME 2025で93.3%(公式ベンチマーク)を達成
- 1日10プロンプトの制限あり(Google AI Ultraプラン)。API経由はアーリーアクセス
Gemini 3 Deep Thinkとは
Gemini 3 Deep ThinkはGoogleが2026年2月12日に発表した推論特化モードです。通常のGemini 3 Proが「オートコンプリート型」の即時応答を生成するのに対し、Deep Thinkは回答を出す前に次の処理を内部で実行します。
- 問題の分解: 複雑な問いを部分問題に分割
- 並行仮説探索: 複数の解法候補を同時に検討
- 自己検証: 各候補の整合性を確認し、反例がないかチェック
- 段階的統合: 部分解を組み合わせて最終回答を導出
この思考プロセスにより、通常のモデルでは誤りが出やすい「数学オリンピックレベルの問題」や「マルチステップの論理推論」に対して精度が向上します。
従来の推論モデルとの違い
| 項目 | Gemini 3 Pro(通常) | Gemini 3 Deep Think |
|---|---|---|
| 思考スタイル | 即時出力 | 段階的推論(内部思考) |
| 応答速度 | 秒単位 | 数分(Highモード) |
| 数学・科学精度 | 標準 | 大幅向上 |
| コスト | 標準 | Highモードで最大10倍 |
| 用途 | 汎用 | 複雑な推論・研究・科学計算 |
ベンチマーク性能
Googleの公式発表によると、Gemini 3 Deep ThinkはAIベンチマーク全般で高いスコアを達成しています。
主要ベンチマーク(2026年2月時点)
| ベンチマーク | Gemini 3 Deep Think | Gemini 3 Pro(通常) |
|---|---|---|
| ARC-AGI-2(抽象・視覚推論) | 45.1% | 31.1% |
| AIME 2025(数学オリンピック) | 95%(ツールなし)/ 100%(コード実行あり) | — |
| GPQA Diamond(大学院レベル科学) | 93.8% | 91.9% |
| Humanity's Last Exam | 41.0% | — |
| LMArena Elo(総合評価) | 1,501(Gemini 3 Pro系、首位)1 | — |
ARC-AGI-2は「人間には簡単だがAIには困難なタスク」を測定するベンチマークです。通常のGemini 3 Proと比較して約14ポイントの差があります2。
AIME 2025(米国数学オリンピック予選)ではツールなしで95%、コード実行ありで100%を達成しています3。
APIでの実装方法
セットアップ
pip install google-genai
基本実装(思考レベル制御)
ThinkingConfigにthinking_levelを指定することで深度を制御します。
from google import genai
from google.genai import types
client = genai.Client(api_key="YOUR_GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="次の微分方程式を解いてください: dy/dx = 3x² - 2x + 1",
config=types.ThinkingConfig(
thinking_level="high" # "low" | "medium" | "high" | "minimal"
),
)
print(response.text)
思考レベルの選択
| レベル | 文字列値 | 思考トークン目安 | 応答時間 | 推奨用途 |
|---|---|---|---|---|
| LOW | "low" |
500〜2K | 数秒 | 翻訳・分類・要約 |
| MEDIUM | "medium" |
2K〜8K | 数十秒 | コードレビュー・分析 |
| HIGH | "high" |
8K〜32K+ | 数分 | 数学証明・研究タスク |
注意: thinking_levelとthinking_budgetは同時に指定できません。同時指定すると400エラーが返ります。
思考プロセスの取得(Thought Summaries)
モデルの推論過程を確認したい場合は include_thoughts=True を指定します。
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="素数判定アルゴリズムをPythonで最適化してください",
config=types.ThinkingConfig(
thinking_level="high",
include_thoughts=True # 推論プロセスを含める
),
)
# 思考プロセスと最終回答を分離して取得
for part in response.candidates[0].content.parts:
if part.thought:
print("=== 思考プロセス ===")
print(part.text)
else:
print("=== 最終回答 ===")
print(part.text)
科学計算での実装例
from google import genai
from google.genai import types
client = genai.Client(api_key="YOUR_GEMINI_API_KEY")
# 大学院レベルの物理問題
question = """
量子力学の問題です。
ポテンシャル V(x) = 0 (0 < x < L)、V(x) = ∞ (それ以外) の
1次元無限深さの井戸型ポテンシャルについて:
1. シュレーディンガー方程式を解き、波動関数を導出してください
2. エネルギー固有値を求めてください
3. 基底状態での粒子の位置の期待値と不確かさを計算してください
"""
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents=question,
config=types.ThinkingConfig(
thinking_level="high"
),
)
print(response.text)
利用プランと料金
個人向けプラン(Google AI)
| プラン | 月額 | Deep Think | 用途 |
|---|---|---|---|
| Free | 無料 | × | Gemini 2.5 Flash + 限定的なProアクセス |
| Google AI Plus | $7.99 | × | Gemini 3 Flash(拡張版) |
| Google AI Pro | $19.99 | × | Gemini 3.1 Pro + 1,000 AIクレジット |
| Google AI Ultra | $249.99(¥36,400) | ✓ | 全モデルアクセス。1日10プロンプト制限 |
Deep ThinkへのアクセスはGoogle AI Ultraプランが必要です。
API料金(Gemini API)
APIでの利用はアーリーアクセスプログラムへの申込が必要です(2026年3月時点)。
| 項目 | 料金 |
|---|---|
| 入力トークン | $0.50 / 100万トークン |
| 出力トークン | $3.00 / 100万トークン(思考トークン含む) |
思考レベルHIGHでは1リクエストあたり8K〜32K以上の思考トークンが消費されます。通常のGemini 3 Proと比較してコストが5〜10倍になる可能性があるため、本番利用ではコスト試算が重要です4。
推奨ユースケース
Deep Thinkが特に効果を発揮する用途を整理します。
向いているタスク
数学・アルゴリズム
- 数学証明の検証・生成
- 計算量解析を伴う競技プログラミング問題
- 最適化問題(線形計画法、動的計画法)
科学・研究
- 大学院レベルの物理・化学の理論計算
- 論文の論理的整合性チェック
- 仮説設計とその検証方法の立案
複雑なコーディング
- 複数のアーキテクチャ候補を比較した上での最適設計
- バグ原因の多段階推論による特定
- セキュリティ脆弱性の体系的な分析
向いていないタスク
- メール作成・要約・翻訳(通常のGemini 3 Flashで十分)
- リアルタイム応答が必要なチャットボット(応答に数分かかる)
- 1日10プロンプトを超える大量バッチ処理
注意点
API利用上の制限
-
thinking_levelとthinking_budgetは同時指定不可
片方のみを指定してください。両方指定すると400エラーになります。 -
アーリーアクセス対象のみ
2026年3月時点でAPIアクセスは選別制です。申込フォームから申請が必要です。 -
地域制限
現状は米国・英語ユーザー向けに提供が先行しています。日本語での品質は今後改善見込みです。 -
処理時間
HIGHモードでは数分かかることがあります。タイムアウト設定に注意してください。
# タイムアウトを設定した実装例
import httpx
client = genai.Client(
api_key="YOUR_GEMINI_API_KEY",
http_options={"timeout": 300} # 5分に設定
)
まとめ
Gemini 3 Deep Thinkは、複雑な推論や科学計算タスクに特化したGoogleの最新モデルです。
- ベンチマーク: ARC-AGI-2で45.1%、AIME 2025で93.3%を達成
-
API:
ThinkingConfig(thinking_level=ThinkingLevel.HIGH)で有効化 - 用途: 数学証明・物理計算・複雑なアルゴリズム設計・論文検証
- 制限: 1日10プロンプト(Ultraプラン)、API利用はアーリーアクセス
汎用タスクにはGemini 3 FlashやGemini 3.1 Proを使い、高精度推論が必要な場面にのみDeep Thinkを使う「使い分け」がコスト効率の観点から推奨されます。
アーリーアクセスが拡大次第、研究・教育・金融リスク計算など幅広い分野での活用が期待されます。
参考リンク
- Gemini 3 Deep Think | Google Blog — 公式発表(2026年2月12日)
- Gemini Thinking | Google AI for Developers — APIリファレンス
- Gemini API Pricing — 料金詳細
- Google AI Ultra プラン — Deep Think UI利用
- ARC-AGI-2 Leaderboard — ベンチマーク公開順位
-
LMArena Elo 1,501はGemini 3 Proシリーズとして記録されたスコアです ↩
-
Gemini 3 Deep Think | Google Blog(2026年2月12日) ↩