はじめに
2026年5月19日のGoogle I/O 2026で、Googleは Gemini 3.5 Flash を正式にGA(一般提供)リリースしました。
コーディング・エージェント系ベンチマークではGemini 3.1 Proを上回る性能を持ちながら、他のフロンティアモデルと比較して 4倍の出力速度 を実現しています。同日中に Gemini API、Google AI Studio、Antigravity、Vertex AI での利用が可能になりました。
この記事では以下の内容を解説します:
- Gemini 3.5 Flashのスペックとベンチマーク詳細
- Interactions API を使ったPython実装パターン
-
thinking_levelの4段階使い分け - Gemini 3 Flash Previewからの移行チェックリスト
この記事で学べること
- Gemini 3.5 Flash の基本スペックと料金体系
- Interactions API の実装方法(基本・関数呼び出し・マルチターン)
-
thinking_levelによる推論深度の制御 - 移行時の注意点とトラブルシューティング
対象読者
- Gemini APIを使ってエージェント・AIアプリを開発しているエンジニア
- Gemini 3 Flash Preview から移行を検討している開発者
- 新しいInteractions APIの実装パターンを把握したい方
前提環境
- Python 3.9以上
- google-genai SDK v1.55.0以上
- Gemini API キー(Google AI Studioで取得可能)
TL;DR
- Gemini 3.5 Flash は 2026年5月19日 Google I/O 2026 でGA、モデルID
gemini-3.5-flash - フロンティアモデル比 4倍高速、コーディング・エージェント系でGemini 3.1 Pro超え
- 料金: 入力 $1.50/1Mトークン、出力 $9.00/1Mトークン(キャッシュ: $0.15/1M)
- コンテキスト1Mトークン、最大出力65Kトークン(65,536)
-
thinking_levelで推論深度を制御(minimal/low/medium/high) -
thinking_budget(数値)は廃止 →thinking_level(文字列enum)に移行必須
Gemini 3.5 Flashとは
Gemini 3.5 Flashは、Googleがコーディングとエージェントタスクのために設計した最新フラッグシップFlashモデルです。Google I/O 2026で発表され、同日中にGemini API、Google AI Studio、Antigravity、Vertex AIで一般提供が開始されました。
Flash系列は「スピードとコストの最適化」が設計思想です。Gemini 3.5では推論能力と速度の両立を実現しており、公式ドキュメントによると、他のフロンティアモデルと比較して出力トークン速度が4倍高速です。
スペックとベンチマーク
基本スペック
| 項目 | 詳細 |
|---|---|
| モデルID | gemini-3.5-flash |
| リリース日 | 2026年5月19日 |
| ステータス | GA(一般提供) |
| コンテキストウィンドウ | 1,000,000トークン(入力) |
| 最大出力トークン | 65,536トークン(65k) |
| 速度 | フロンティアモデル比4倍 |
| Knowledge Cutoff | 2025年1月 |
料金1
| 種別 | 料金 |
|---|---|
| 入力(グローバル) | $1.50/1Mトークン |
| 出力(グローバル) | $9.00/1Mトークン |
| キャッシュ済み入力 | $0.15/1Mトークン |
| 入力(非グローバルリージョン) | $1.65/1Mトークン |
| 出力(非グローバルリージョン) | $9.90/1Mトークン |
ベンチマーク(対 Gemini 3.1 Pro)2
| ベンチマーク | Gemini 3.5 Flash | Gemini 3.1 Pro | 差分 |
|---|---|---|---|
| Terminal-Bench 2.1(コーディング) | 76.2% | 70.3% | +5.9pt |
| MCP Atlas(マルチステップ) | 83.6% | 78.2% | +5.4pt |
| Finance Agent v2 | 57.9% | 43.0% | +14.9pt |
| CharXiv Reasoning(マルチモーダル) | 84.2% | — | — |
| OSWorld-Verified(UIコントロール) | 78.4% | 76.2% | +2.2pt |
| Humanity's Last Exam(難問知識) | 40.2% | 44.4% | -4.2pt |
| ARC-AGI-2(抽象推論) | 72.1% | 77.1% | -5.0pt |
コーディング・エージェント・金融エージェントの分野ではGemini 3.1 Proを大幅に上回る一方、抽象推論や知識密度が高いタスクではGemini 3.1 Proが上です。コーディング・自律エージェント開発には Gemini 3.5 Flash、難解な推論・知識タスクには Gemini 3.1 Pro という使い分けが推奨されます。
Interactions APIで始める
Gemini 3.5 Flashは、エージェントワークフローに最適化された Interactions API の使用が推奨されています。Interactions APIはサーバーサイドのstateマネジメントと複雑なマルチターン会話を最適化した新標準プリミティブです。
インストール
pip install -U google-genai
# google-genai v2.0.0以上が必要
インストール後、APIキーを環境変数に設定します。
export GEMINI_API_KEY="your-api-key-here"
基本的な使い方(Interactions API)
from google import genai
client = genai.Client()
interaction = client.interactions.create(
model="gemini-3.5-flash",
input="AIエージェントの並列実行の仕組みを3文で説明してください。"
)
print(interaction.output_text)
generateContent API(既存コードとの互換性)
Interactions APIへの移行が推奨されていますが、従来の generate_content も引き続き利用できます。
from google import genai
client = genai.Client()
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Pythonでシンプルなエージェントを実装する方法を教えてください。",
)
print(response.text)
関数呼び出し(Interactions API)
Gemini 3.5 Flashでは、FunctionResponseに call_id と name の指定が 必須 になりました。
import json
from google import genai
from google.genai import types
client = genai.Client()
# ツール関数の定義
get_weather_tool = types.Tool(
function_declarations=[{
"name": "get_weather",
"description": "指定した都市の現在の天気情報を取得する",
"parameters": {
"type": "object",
"properties": {
"location": {
"type": "string",
"description": "都市名(例: Tokyo, Osaka)"
}
},
"required": ["location"]
}
}]
)
# 初回呼び出し
interaction = client.interactions.create(
model="gemini-3.5-flash",
tools=[get_weather_tool],
input="東京の天気を教えてください。",
)
# 関数呼び出しステップを処理
for step in interaction.steps:
if step.type == "function_call":
# 実際の関数を実行
result = {"location": step.input["location"], "temperature": "22°C", "condition": "晴れ"}
# FunctionResponseに call_id(= step.id)と name(= step.name)を必ず指定
final_interaction = client.interactions.create(
model="gemini-3.5-flash",
previous_interaction_id=interaction.id,
tools=[get_weather_tool],
input=[{
"type": "function_result",
"name": step.name, # FunctionCallの name と一致
"call_id": step.id, # FunctionCallの id を指定
"result": [{"type": "text", "text": json.dumps(result, ensure_ascii=False)}],
}],
)
print(final_interaction.output_text)
マルチターン会話(Thought Preservation)
previous_interaction_id を使うことで推論コンテキストが引き継がれます。
client = genai.Client()
# ターン1: 複雑な設計相談
interaction_1 = client.interactions.create(
model="gemini-3.5-flash",
input="大規模Pythonアプリのマイクロサービスアーキテクチャ設計について考えます。",
generation_config={"thinking_level": "high"},
)
# ターン2: 推論が自動的に引き継がれる
interaction_2 = client.interactions.create(
model="gemini-3.5-flash",
previous_interaction_id=interaction_1.id,
input="では、各サービス間のキャッシュ戦略はどう設計すべきでしょうか?",
)
print(interaction_2.output_text)
thinking_level の使い分け
Gemini 3.5 Flashでは thinking_budget(数値)が廃止され、thinking_level(文字列enum)で推論深度を制御します。デフォルトは medium に変更されました(Gemini 3 Flash Preview では high がデフォルト)。
| レベル | 推奨用途 | 特性 |
|---|---|---|
minimal |
チャット、クイック回答、簡単なツール呼び出し | 最速・最低コスト |
low |
コード生成・エージェントタスク(低レイテンシ優先)、分析・文章生成 | 速度重視 |
medium |
(デフォルト) 複雑なコード、エージェントタスク全般 | バランス重視 |
high |
複雑な推論、数学証明、難易度の高いコーディング | 最高精度 |
from google import genai
client = genai.Client()
# 複雑な数学証明には high
interaction_high = client.interactions.create(
model="gemini-3.5-flash",
input="√2が無理数であることを証明してください。",
generation_config={"thinking_level": "high"},
)
# チャット用途には minimal で高速化
interaction_minimal = client.interactions.create(
model="gemini-3.5-flash",
input="Pythonの list と tuple の違いを一言で教えてください。",
generation_config={"thinking_level": "minimal"},
)
# デフォルト(medium): 明示的な指定も可能
interaction_default = client.interactions.create(
model="gemini-3.5-flash",
input="FastAPIで認証付きエンドポイントを実装してください。",
generation_config={"thinking_level": "medium"},
)
ツール呼び出しが多い場合の調整手順
- まず
thinking_levelを下げる(high→medium→low)- それでも改善しない場合は、システム指示でツール使用を制限する
マルチモーダル関数レスポンス
関数の戻り値にマルチモーダルコンテンツ(画像・動画など)を含める場合、コンテンツはFunctionResponse の result 内に配置する必要があります。
import base64
# 画像を含むFunctionResponseの例
with open("result_image.png", "rb") as f:
image_data = base64.b64encode(f.read()).decode()
final_interaction = client.interactions.create(
model="gemini-3.5-flash",
previous_interaction_id=interaction.id,
tools=[image_analysis_tool],
input=[{
"type": "function_result",
"name": step.name,
"call_id": step.id,
"result": [
{"type": "text", "text": "分析対象の画像:"},
{
"type": "image",
"source": {
"type": "base64",
"media_type": "image/png",
"data": image_data
}
},
{"type": "text", "text": "\n\n上記の画像に基づいて詳細な分析を行ってください。"},
],
}],
)
Gemini 3 Flash Previewからの移行ガイド
移行チェックリスト
移行時に必要な変更点を整理します。
1. モデル名の変更
# 移行前
model="gemini-3-flash-preview"
# 移行後
model="gemini-3.5-flash"
2. サンプリングパラメータの削除
Gemini 3.5 Flashでは temperature、top_p、top_k は 強く非推奨 です(Gemini 3.x の推論能力はデフォルト設定に最適化されており、変更は推奨されません)。
# 移行前(削除が必要)
generation_config = {
"temperature": 0.7,
"top_p": 0.9,
"top_k": 40,
"thinking_budget": 8000,
}
# 移行後
generation_config = {
"thinking_level": "high", # 従来の高精度を維持したい場合
}
3. thinking_budget → thinking_level
# 移行前
generation_config={"thinking_budget": 8000}
# 移行後
generation_config={"thinking_level": "high"}
4. FunctionResponseへの id 追加
FunctionResponse ごとに call_id(FunctionCallの id)と name の指定が必須です。
5. デフォルトthinking_levelの確認
デフォルトが high → medium に変更されているため、品質に変化がないか確認が必要です。精度を維持したい場合は明示的に "thinking_level": "high" を指定してください。
SDKバージョン確認
# アップグレード
pip install -U google-genai
# バージョン確認(v1.55.0以上が必要)
pip show google-genai | grep Version
Computer Use が必要な場合の注意点
Gemini 3.5 Flash は Computer Use(コンピュータ操作自動化)をサポートしていません。Computer Useが必要なワークロードには、引き続き gemini-3-flash-preview を使用してください。
# Computer Useが必要な場合は 3 Flash Preview を継続利用
model="gemini-3-flash-preview" # Computer Use対応
注意点
Gemini 3.5 Flash の制限
- Computer Use 非対応: コンピュータ操作自動化が必要な場合は
gemini-3-flash-previewを継続利用してください- 画像セグメンテーション非対応: Gemini 3.x 系列全体の制限です
- Knowledge Cutoff: 2025年1月のため、それ以降の情報は持っていません
Interactions API の推奨事項
- 現在ベータ版: 本番環境では
generateContentAPI の継続利用を推奨(Google 公式)- 新規プロジェクトはInteractions API推奨: エージェントタスク・マルチターン会話に最適化
- 既存プロジェクトはgenerateContentも利用可: 段階的な移行が可能
まとめ
- Gemini 3.5 Flash は コーディング・エージェント系タスクに特化した GA モデル で、フロンティアモデル比4倍高速
- Gemini 3.1 Pro よりコーディングとエージェントで優れ、より低コスト・高速
- Interactions API がエージェント開発の新標準(サーバーサイドstate管理・マルチターン最適化)
-
thinking_levelでminimal/low/medium/highを使い分けてコスト/精度を調整 - 移行時の主な変更点は thinking_levelへの変更・FunctionResponseへのid追加・sampling params削除
Gemini 3 Flash Preview から移行する際は特に thinking_level のデフォルト変更(high → medium)に注意してください。出力品質が変わる可能性があるため、移行後はテストの実施を推奨します。
参考リンク
- What's new in Gemini 3.5 Flash — Google AI for Developers — 公式移行ガイド
- Gemini 3.5 Flash — Google DeepMind — モデル概要・ベンチマーク
- Gemini 3.5 Flash Developer Guide — DEV Community — 実装詳細
- Gemini 3.5 Flash: Benchmarks, Pricing, and Complete Specs — LLM Stats — 料金・スペック詳細
- All the news from the Google I/O 2026 Developer keynote — Google Developers Blog — Google I/O 2026 発表まとめ
-
Gemini API Pricing(2026年5月時点) ↩
-
Gemini 3.5 Flash: Benchmarks, Pricing, and Complete Specs(2026年5月時点) ↩


