0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Gemini 3.5 Flash入門 — Google I/O 2026発表モデルのAPIと移行手順を解説

0
Last updated at Posted at 2026-07-01

Gemini 3.5 Flash — Google I/O 2026発表。4倍高速のフラッグシップFlashモデル

はじめに

2026年5月19日のGoogle I/O 2026で、Googleは Gemini 3.5 Flash を正式にGA(一般提供)リリースしました。

コーディング・エージェント系ベンチマークではGemini 3.1 Proを上回る性能を持ちながら、他のフロンティアモデルと比較して 4倍の出力速度 を実現しています。同日中に Gemini API、Google AI Studio、Antigravity、Vertex AI での利用が可能になりました。

この記事では以下の内容を解説します:

  • Gemini 3.5 Flashのスペックとベンチマーク詳細
  • Interactions API を使ったPython実装パターン
  • thinking_level の4段階使い分け
  • Gemini 3 Flash Previewからの移行チェックリスト

この記事で学べること

  • Gemini 3.5 Flash の基本スペックと料金体系
  • Interactions API の実装方法(基本・関数呼び出し・マルチターン)
  • thinking_level による推論深度の制御
  • 移行時の注意点とトラブルシューティング

対象読者

  • Gemini APIを使ってエージェント・AIアプリを開発しているエンジニア
  • Gemini 3 Flash Preview から移行を検討している開発者
  • 新しいInteractions APIの実装パターンを把握したい方

前提環境

  • Python 3.9以上
  • google-genai SDK v1.55.0以上
  • Gemini API キー(Google AI Studioで取得可能)

TL;DR

  • Gemini 3.5 Flash は 2026年5月19日 Google I/O 2026 でGA、モデルID gemini-3.5-flash
  • フロンティアモデル比 4倍高速、コーディング・エージェント系でGemini 3.1 Pro超え
  • 料金: 入力 $1.50/1Mトークン、出力 $9.00/1Mトークン(キャッシュ: $0.15/1M)
  • コンテキスト1Mトークン、最大出力65Kトークン(65,536)
  • thinking_level で推論深度を制御(minimal / low / medium / high
  • thinking_budget(数値)は廃止 → thinking_level(文字列enum)に移行必須

Gemini 3.5 Flashとは

Gemini 3.5 Flashは、Googleがコーディングとエージェントタスクのために設計した最新フラッグシップFlashモデルです。Google I/O 2026で発表され、同日中にGemini API、Google AI Studio、Antigravity、Vertex AIで一般提供が開始されました。

Flash系列は「スピードとコストの最適化」が設計思想です。Gemini 3.5では推論能力と速度の両立を実現しており、公式ドキュメントによると、他のフロンティアモデルと比較して出力トークン速度が4倍高速です。

Gemini 3.5 Flash vs Gemini 3.1 Pro — 5ベンチマーク比較。コーディング・エージェント系はFlashが優位

スペックとベンチマーク

基本スペック

項目 詳細
モデルID gemini-3.5-flash
リリース日 2026年5月19日
ステータス GA(一般提供)
コンテキストウィンドウ 1,000,000トークン(入力)
最大出力トークン 65,536トークン(65k)
速度 フロンティアモデル比4倍
Knowledge Cutoff 2025年1月

料金1

種別 料金
入力(グローバル) $1.50/1Mトークン
出力(グローバル) $9.00/1Mトークン
キャッシュ済み入力 $0.15/1Mトークン
入力(非グローバルリージョン) $1.65/1Mトークン
出力(非グローバルリージョン) $9.90/1Mトークン

ベンチマーク(対 Gemini 3.1 Pro)2

ベンチマーク Gemini 3.5 Flash Gemini 3.1 Pro 差分
Terminal-Bench 2.1(コーディング) 76.2% 70.3% +5.9pt
MCP Atlas(マルチステップ) 83.6% 78.2% +5.4pt
Finance Agent v2 57.9% 43.0% +14.9pt
CharXiv Reasoning(マルチモーダル) 84.2%
OSWorld-Verified(UIコントロール) 78.4% 76.2% +2.2pt
Humanity's Last Exam(難問知識) 40.2% 44.4% -4.2pt
ARC-AGI-2(抽象推論) 72.1% 77.1% -5.0pt

コーディング・エージェント・金融エージェントの分野ではGemini 3.1 Proを大幅に上回る一方、抽象推論や知識密度が高いタスクではGemini 3.1 Proが上です。コーディング・自律エージェント開発には Gemini 3.5 Flash、難解な推論・知識タスクには Gemini 3.1 Pro という使い分けが推奨されます。

Interactions APIで始める

Gemini 3.5 Flashは、エージェントワークフローに最適化された Interactions API の使用が推奨されています。Interactions APIはサーバーサイドのstateマネジメントと複雑なマルチターン会話を最適化した新標準プリミティブです。

インストール

pip install -U google-genai
# google-genai v2.0.0以上が必要

インストール後、APIキーを環境変数に設定します。

export GEMINI_API_KEY="your-api-key-here"

基本的な使い方(Interactions API)

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="AIエージェントの並列実行の仕組みを3文で説明してください。"
)
print(interaction.output_text)

generateContent API(既存コードとの互換性)

Interactions APIへの移行が推奨されていますが、従来の generate_content も引き続き利用できます。

from google import genai

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Pythonでシンプルなエージェントを実装する方法を教えてください。",
)
print(response.text)

Interactions API マルチターンエージェントループ — Step 1〜4 の処理フロー

関数呼び出し(Interactions API)

Gemini 3.5 Flashでは、FunctionResponseに call_idname の指定が 必須 になりました。

import json
from google import genai
from google.genai import types

client = genai.Client()

# ツール関数の定義
get_weather_tool = types.Tool(
    function_declarations=[{
        "name": "get_weather",
        "description": "指定した都市の現在の天気情報を取得する",
        "parameters": {
            "type": "object",
            "properties": {
                "location": {
                    "type": "string",
                    "description": "都市名(例: Tokyo, Osaka)"
                }
            },
            "required": ["location"]
        }
    }]
)

# 初回呼び出し
interaction = client.interactions.create(
    model="gemini-3.5-flash",
    tools=[get_weather_tool],
    input="東京の天気を教えてください。",
)

# 関数呼び出しステップを処理
for step in interaction.steps:
    if step.type == "function_call":
        # 実際の関数を実行
        result = {"location": step.input["location"], "temperature": "22°C", "condition": "晴れ"}

        # FunctionResponseに call_id(= step.id)と name(= step.name)を必ず指定
        final_interaction = client.interactions.create(
            model="gemini-3.5-flash",
            previous_interaction_id=interaction.id,
            tools=[get_weather_tool],
            input=[{
                "type": "function_result",
                "name": step.name,        # FunctionCallの name と一致
                "call_id": step.id,       # FunctionCallの id を指定
                "result": [{"type": "text", "text": json.dumps(result, ensure_ascii=False)}],
            }],
        )
        print(final_interaction.output_text)

マルチターン会話(Thought Preservation)

previous_interaction_id を使うことで推論コンテキストが引き継がれます。

client = genai.Client()

# ターン1: 複雑な設計相談
interaction_1 = client.interactions.create(
    model="gemini-3.5-flash",
    input="大規模Pythonアプリのマイクロサービスアーキテクチャ設計について考えます。",
    generation_config={"thinking_level": "high"},
)

# ターン2: 推論が自動的に引き継がれる
interaction_2 = client.interactions.create(
    model="gemini-3.5-flash",
    previous_interaction_id=interaction_1.id,
    input="では、各サービス間のキャッシュ戦略はどう設計すべきでしょうか?",
)
print(interaction_2.output_text)

thinking_level の使い分け

Gemini 3.5 Flashでは thinking_budget(数値)が廃止され、thinking_level(文字列enum)で推論深度を制御します。デフォルトは medium に変更されました(Gemini 3 Flash Preview では high がデフォルト)。

レベル 推奨用途 特性
minimal チャット、クイック回答、簡単なツール呼び出し 最速・最低コスト
low コード生成・エージェントタスク(低レイテンシ優先)、分析・文章生成 速度重視
medium (デフォルト) 複雑なコード、エージェントタスク全般 バランス重視
high 複雑な推論、数学証明、難易度の高いコーディング 最高精度
from google import genai

client = genai.Client()

# 複雑な数学証明には high
interaction_high = client.interactions.create(
    model="gemini-3.5-flash",
    input="√2が無理数であることを証明してください。",
    generation_config={"thinking_level": "high"},
)

# チャット用途には minimal で高速化
interaction_minimal = client.interactions.create(
    model="gemini-3.5-flash",
    input="Pythonの list と tuple の違いを一言で教えてください。",
    generation_config={"thinking_level": "minimal"},
)

# デフォルト(medium): 明示的な指定も可能
interaction_default = client.interactions.create(
    model="gemini-3.5-flash",
    input="FastAPIで認証付きエンドポイントを実装してください。",
    generation_config={"thinking_level": "medium"},
)

ツール呼び出しが多い場合の調整手順

  1. まず thinking_level を下げる(highmediumlow
  2. それでも改善しない場合は、システム指示でツール使用を制限する

マルチモーダル関数レスポンス

関数の戻り値にマルチモーダルコンテンツ(画像・動画など)を含める場合、コンテンツはFunctionResponse の result 内に配置する必要があります

import base64

# 画像を含むFunctionResponseの例
with open("result_image.png", "rb") as f:
    image_data = base64.b64encode(f.read()).decode()

final_interaction = client.interactions.create(
    model="gemini-3.5-flash",
    previous_interaction_id=interaction.id,
    tools=[image_analysis_tool],
    input=[{
        "type": "function_result",
        "name": step.name,
        "call_id": step.id,
        "result": [
            {"type": "text", "text": "分析対象の画像:"},
            {
                "type": "image",
                "source": {
                    "type": "base64",
                    "media_type": "image/png",
                    "data": image_data
                }
            },
            {"type": "text", "text": "\n\n上記の画像に基づいて詳細な分析を行ってください。"},
        ],
    }],
)

Gemini 3 Flash Previewからの移行ガイド

移行チェックリスト

移行時に必要な変更点を整理します。

1. モデル名の変更

# 移行前
model="gemini-3-flash-preview"

# 移行後
model="gemini-3.5-flash"

2. サンプリングパラメータの削除

Gemini 3.5 Flashでは temperaturetop_ptop_k強く非推奨 です(Gemini 3.x の推論能力はデフォルト設定に最適化されており、変更は推奨されません)。

# 移行前(削除が必要)
generation_config = {
    "temperature": 0.7,
    "top_p": 0.9,
    "top_k": 40,
    "thinking_budget": 8000,
}

# 移行後
generation_config = {
    "thinking_level": "high",  # 従来の高精度を維持したい場合
}

3. thinking_budget → thinking_level

# 移行前
generation_config={"thinking_budget": 8000}

# 移行後
generation_config={"thinking_level": "high"}

4. FunctionResponseへの id 追加

FunctionResponse ごとに call_id(FunctionCallの id)と name の指定が必須です。

5. デフォルトthinking_levelの確認

デフォルトが highmedium に変更されているため、品質に変化がないか確認が必要です。精度を維持したい場合は明示的に "thinking_level": "high" を指定してください。

SDKバージョン確認

# アップグレード
pip install -U google-genai

# バージョン確認(v1.55.0以上が必要)
pip show google-genai | grep Version

Computer Use が必要な場合の注意点

Gemini 3.5 Flash は Computer Use(コンピュータ操作自動化)をサポートしていません。Computer Useが必要なワークロードには、引き続き gemini-3-flash-preview を使用してください。

# Computer Useが必要な場合は 3 Flash Preview を継続利用
model="gemini-3-flash-preview"  # Computer Use対応

注意点

Gemini 3.5 Flash の制限

  • Computer Use 非対応: コンピュータ操作自動化が必要な場合は gemini-3-flash-preview を継続利用してください
  • 画像セグメンテーション非対応: Gemini 3.x 系列全体の制限です
  • Knowledge Cutoff: 2025年1月のため、それ以降の情報は持っていません

Interactions API の推奨事項

  • 現在ベータ版: 本番環境では generateContent API の継続利用を推奨(Google 公式)
  • 新規プロジェクトはInteractions API推奨: エージェントタスク・マルチターン会話に最適化
  • 既存プロジェクトはgenerateContentも利用可: 段階的な移行が可能

まとめ

  • Gemini 3.5 Flash は コーディング・エージェント系タスクに特化した GA モデル で、フロンティアモデル比4倍高速
  • Gemini 3.1 Pro よりコーディングとエージェントで優れ、より低コスト・高速
  • Interactions API がエージェント開発の新標準(サーバーサイドstate管理・マルチターン最適化)
  • thinking_levelminimal / low / medium / high を使い分けてコスト/精度を調整
  • 移行時の主な変更点は thinking_levelへの変更・FunctionResponseへのid追加・sampling params削除

Gemini 3 Flash Preview から移行する際は特に thinking_level のデフォルト変更highmedium)に注意してください。出力品質が変わる可能性があるため、移行後はテストの実施を推奨します。

参考リンク

  1. Gemini API Pricing(2026年5月時点)

  2. Gemini 3.5 Flash: Benchmarks, Pricing, and Complete Specs(2026年5月時点)

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?