Gemini 3.5 Flash入門 — Google I/O 2026発表モデルのAPIと移行手順を解説

Last updated at 2026-07-01Posted at 2026-07-01

はじめに

2026年5月19日のGoogle I/O 2026で、Googleは Gemini 3.5 Flash を正式にGA（一般提供）リリースしました。

コーディング・エージェント系ベンチマークではGemini 3.1 Proを上回る性能を持ちながら、他のフロンティアモデルと比較して 4倍の出力速度 を実現しています。同日中に Gemini API、Google AI Studio、Antigravity、Vertex AI での利用が可能になりました。

この記事では以下の内容を解説します：

Gemini 3.5 Flashのスペックとベンチマーク詳細
Interactions API を使ったPython実装パターン
thinking_level の4段階使い分け
Gemini 3 Flash Previewからの移行チェックリスト

この記事で学べること

Gemini 3.5 Flash の基本スペックと料金体系
Interactions API の実装方法（基本・関数呼び出し・マルチターン）
thinking_level による推論深度の制御
移行時の注意点とトラブルシューティング

対象読者

Gemini APIを使ってエージェント・AIアプリを開発しているエンジニア
Gemini 3 Flash Preview から移行を検討している開発者
新しいInteractions APIの実装パターンを把握したい方

前提環境

Python 3.9以上
google-genai SDK v1.55.0以上
Gemini API キー（Google AI Studioで取得可能）

TL;DR

Gemini 3.5 Flash は 2026年5月19日 Google I/O 2026 でGA、モデルID gemini-3.5-flash
フロンティアモデル比 4倍高速、コーディング・エージェント系でGemini 3.1 Pro超え
料金: 入力 $1.50/1Mトークン、出力 $9.00/1Mトークン（キャッシュ: $0.15/1M）
コンテキスト1Mトークン、最大出力65Kトークン（65,536）
thinking_level で推論深度を制御（minimal / low / medium / high）
thinking_budget（数値）は廃止 → thinking_level（文字列enum）に移行必須

Gemini 3.5 Flashとは

Gemini 3.5 Flashは、Googleがコーディングとエージェントタスクのために設計した最新フラッグシップFlashモデルです。Google I/O 2026で発表され、同日中にGemini API、Google AI Studio、Antigravity、Vertex AIで一般提供が開始されました。

Flash系列は「スピードとコストの最適化」が設計思想です。Gemini 3.5では推論能力と速度の両立を実現しており、公式ドキュメントによると、他のフロンティアモデルと比較して出力トークン速度が4倍高速です。

スペックとベンチマーク

基本スペック

項目	詳細
モデルID	`gemini-3.5-flash`
リリース日	2026年5月19日
ステータス	GA（一般提供）
コンテキストウィンドウ	1,000,000トークン（入力）
最大出力トークン	65,536トークン（65k）
速度	フロンティアモデル比4倍
Knowledge Cutoff	2025年1月

料金¹

種別	料金
入力（グローバル）	$1.50/1Mトークン
出力（グローバル）	$9.00/1Mトークン
キャッシュ済み入力	$0.15/1Mトークン
入力（非グローバルリージョン）	$1.65/1Mトークン
出力（非グローバルリージョン）	$9.90/1Mトークン

ベンチマーク（対 Gemini 3.1 Pro）²

ベンチマーク	Gemini 3.5 Flash	Gemini 3.1 Pro	差分
Terminal-Bench 2.1（コーディング）	76.2%	70.3%	+5.9pt
MCP Atlas（マルチステップ）	83.6%	78.2%	+5.4pt
Finance Agent v2	57.9%	43.0%	+14.9pt
CharXiv Reasoning（マルチモーダル）	84.2%	—	—
OSWorld-Verified（UIコントロール）	78.4%	76.2%	+2.2pt
Humanity's Last Exam（難問知識）	40.2%	44.4%	-4.2pt
ARC-AGI-2（抽象推論）	72.1%	77.1%	-5.0pt

コーディング・エージェント・金融エージェントの分野ではGemini 3.1 Proを大幅に上回る一方、抽象推論や知識密度が高いタスクではGemini 3.1 Proが上です。コーディング・自律エージェント開発には Gemini 3.5 Flash、難解な推論・知識タスクには Gemini 3.1 Pro という使い分けが推奨されます。

Interactions APIで始める

Gemini 3.5 Flashは、エージェントワークフローに最適化された Interactions API の使用が推奨されています。Interactions APIはサーバーサイドのstateマネジメントと複雑なマルチターン会話を最適化した新標準プリミティブです。

インストール

pip install -U google-genai
# google-genai v2.0.0以上が必要

インストール後、APIキーを環境変数に設定します。

export GEMINI_API_KEY="your-api-key-here"

基本的な使い方（Interactions API）

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="AIエージェントの並列実行の仕組みを3文で説明してください。"
)
print(interaction.output_text)

generateContent API（既存コードとの互換性）

Interactions APIへの移行が推奨されていますが、従来の generate_content も引き続き利用できます。

from google import genai

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Pythonでシンプルなエージェントを実装する方法を教えてください。",
)
print(response.text)

関数呼び出し（Interactions API）

Gemini 3.5 Flashでは、FunctionResponseに call_id と name の指定が必須になりました。

import json
from google import genai
from google.genai import types

client = genai.Client()

# ツール関数の定義
get_weather_tool = types.Tool(
    function_declarations=[{
        "name": "get_weather",
        "description": "指定した都市の現在の天気情報を取得する",
        "parameters": {
            "type": "object",
            "properties": {
                "location": {
                    "type": "string",
                    "description": "都市名（例: Tokyo, Osaka）"
                }
            },
            "required": ["location"]
        }
    }]
)

# 初回呼び出し
interaction = client.interactions.create(
    model="gemini-3.5-flash",
    tools=[get_weather_tool],
    input="東京の天気を教えてください。",
)

# 関数呼び出しステップを処理
for step in interaction.steps:
    if step.type == "function_call":
        # 実際の関数を実行
        result = {"location": step.input["location"], "temperature": "22°C", "condition": "晴れ"}

        # FunctionResponseに call_id（= step.id）と name（= step.name）を必ず指定
        final_interaction = client.interactions.create(
            model="gemini-3.5-flash",
            previous_interaction_id=interaction.id,
            tools=[get_weather_tool],
            input=[{
                "type": "function_result",
                "name": step.name,        # FunctionCallの name と一致
                "call_id": step.id,       # FunctionCallの id を指定
                "result": [{"type": "text", "text": json.dumps(result, ensure_ascii=False)}],
            }],
        )
        print(final_interaction.output_text)

マルチターン会話（Thought Preservation）

previous_interaction_id を使うことで推論コンテキストが引き継がれます。

client = genai.Client()

# ターン1: 複雑な設計相談
interaction_1 = client.interactions.create(
    model="gemini-3.5-flash",
    input="大規模Pythonアプリのマイクロサービスアーキテクチャ設計について考えます。",
    generation_config={"thinking_level": "high"},
)

# ターン2: 推論が自動的に引き継がれる
interaction_2 = client.interactions.create(
    model="gemini-3.5-flash",
    previous_interaction_id=interaction_1.id,
    input="では、各サービス間のキャッシュ戦略はどう設計すべきでしょうか？",
)
print(interaction_2.output_text)

thinking_level の使い分け

Gemini 3.5 Flashでは thinking_budget（数値）が廃止され、thinking_level（文字列enum）で推論深度を制御します。デフォルトは medium に変更されました（Gemini 3 Flash Preview では high がデフォルト）。

レベル	推奨用途	特性
`minimal`	チャット、クイック回答、簡単なツール呼び出し	最速・最低コスト
`low`	コード生成・エージェントタスク（低レイテンシ優先）、分析・文章生成	速度重視
`medium`	（デフォルト）複雑なコード、エージェントタスク全般	バランス重視
`high`	複雑な推論、数学証明、難易度の高いコーディング	最高精度

from google import genai

client = genai.Client()

# 複雑な数学証明には high
interaction_high = client.interactions.create(
    model="gemini-3.5-flash",
    input="√2が無理数であることを証明してください。",
    generation_config={"thinking_level": "high"},
)

# チャット用途には minimal で高速化
interaction_minimal = client.interactions.create(
    model="gemini-3.5-flash",
    input="Pythonの list と tuple の違いを一言で教えてください。",
    generation_config={"thinking_level": "minimal"},
)

# デフォルト（medium）: 明示的な指定も可能
interaction_default = client.interactions.create(
    model="gemini-3.5-flash",
    input="FastAPIで認証付きエンドポイントを実装してください。",
    generation_config={"thinking_level": "medium"},
)

ツール呼び出しが多い場合の調整手順

まず thinking_level を下げる（high → medium → low）

それでも改善しない場合は、システム指示でツール使用を制限する

マルチモーダル関数レスポンス

関数の戻り値にマルチモーダルコンテンツ（画像・動画など）を含める場合、コンテンツはFunctionResponse の result 内に配置する必要があります。

import base64

# 画像を含むFunctionResponseの例
with open("result_image.png", "rb") as f:
    image_data = base64.b64encode(f.read()).decode()

final_interaction = client.interactions.create(
    model="gemini-3.5-flash",
    previous_interaction_id=interaction.id,
    tools=[image_analysis_tool],
    input=[{
        "type": "function_result",
        "name": step.name,
        "call_id": step.id,
        "result": [
            {"type": "text", "text": "分析対象の画像:"},
            {
                "type": "image",
                "source": {
                    "type": "base64",
                    "media_type": "image/png",
                    "data": image_data
                }
            },
            {"type": "text", "text": "\n\n上記の画像に基づいて詳細な分析を行ってください。"},
        ],
    }],
)

Gemini 3 Flash Previewからの移行ガイド

移行チェックリスト

移行時に必要な変更点を整理します。

1. モデル名の変更

# 移行前
model="gemini-3-flash-preview"

# 移行後
model="gemini-3.5-flash"

2. サンプリングパラメータの削除

Gemini 3.5 Flashでは temperature、top_p、top_k は 強く非推奨 です（Gemini 3.x の推論能力はデフォルト設定に最適化されており、変更は推奨されません）。

# 移行前（削除が必要）
generation_config = {
    "temperature": 0.7,
    "top_p": 0.9,
    "top_k": 40,
    "thinking_budget": 8000,
}

# 移行後
generation_config = {
    "thinking_level": "high",  # 従来の高精度を維持したい場合
}

3. thinking_budget → thinking_level

# 移行前
generation_config={"thinking_budget": 8000}

# 移行後
generation_config={"thinking_level": "high"}

4. FunctionResponseへの id 追加

FunctionResponse ごとに call_id（FunctionCallの id）と name の指定が必須です。

5. デフォルトthinking_levelの確認

デフォルトが high → medium に変更されているため、品質に変化がないか確認が必要です。精度を維持したい場合は明示的に "thinking_level": "high" を指定してください。

SDKバージョン確認

# アップグレード
pip install -U google-genai

# バージョン確認（v1.55.0以上が必要）
pip show google-genai | grep Version

Computer Use が必要な場合の注意点

Gemini 3.5 Flash は Computer Use（コンピュータ操作自動化）をサポートしていません。Computer Useが必要なワークロードには、引き続き gemini-3-flash-preview を使用してください。

# Computer Useが必要な場合は 3 Flash Preview を継続利用
model="gemini-3-flash-preview"  # Computer Use対応

注意点

Gemini 3.5 Flash の制限

Computer Use 非対応: コンピュータ操作自動化が必要な場合は gemini-3-flash-preview を継続利用してください

画像セグメンテーション非対応: Gemini 3.x 系列全体の制限です

Knowledge Cutoff: 2025年1月のため、それ以降の情報は持っていません

Interactions API の推奨事項

現在ベータ版: 本番環境では generateContent API の継続利用を推奨（Google 公式）

新規プロジェクトはInteractions API推奨: エージェントタスク・マルチターン会話に最適化

既存プロジェクトはgenerateContentも利用可: 段階的な移行が可能

まとめ

Gemini 3.5 Flash は コーディング・エージェント系タスクに特化した GA モデル で、フロンティアモデル比4倍高速
Gemini 3.1 Pro よりコーディングとエージェントで優れ、より低コスト・高速
Interactions API がエージェント開発の新標準（サーバーサイドstate管理・マルチターン最適化）
thinking_level で minimal / low / medium / high を使い分けてコスト/精度を調整
移行時の主な変更点は thinking_levelへの変更・FunctionResponseへのid追加・sampling params削除

Gemini 3 Flash Preview から移行する際は特に thinking_level のデフォルト変更（high → medium）に注意してください。出力品質が変わる可能性があるため、移行後はテストの実施を推奨します。

参考リンク

What's new in Gemini 3.5 Flash — Google AI for Developers — 公式移行ガイド
Gemini 3.5 Flash — Google DeepMind — モデル概要・ベンチマーク
Gemini 3.5 Flash Developer Guide — DEV Community — 実装詳細
Gemini 3.5 Flash: Benchmarks, Pricing, and Complete Specs — LLM Stats — 料金・スペック詳細
All the news from the Google I/O 2026 Developer keynote — Google Developers Blog — Google I/O 2026 発表まとめ

Gemini API Pricing（2026年5月時点） ↩
Gemini 3.5 Flash: Benchmarks, Pricing, and Complete Specs（2026年5月時点） ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up