Google I/O 2026 で登場した Gemini 3.5 Flashについて整理してみた

Last updated at 2026-06-01Posted at 2026-06-01

Gemini 3.5 Flashとは、2026年5月19日のGoogle I/O 2026で発表されたモデルです。
コーディングとエージェントタスクで、旧バージョンの上位モデルである3.1 Proを超えています。

そんなGemini 3.5 Flashについて、スペック・料金・ベンチマーク・APIの使い方まで、気になるところをまとめました。

この記事で分かること

Gemini 3.5 Flash のスペック・料金
旧モデル（3.1 Flash / 3.1 Pro）との違い
ベンチマーク（何が得意で何が苦手か）
thinking_level（新パラメータ）の使い方
Python APIのクイックスタートコード
ユースケース別「どのモデルを使うべきか」早見表

どんなモデル？

「アクションを伴うフロンティア・インテリジェンス」というのがGoogleの公式表現です。

Geminiシリーズはざっくり「Pro（最高性能）」と「Flash（高速・低コスト）」の2系統があり、これまでFlashはProに性能で劣る代わりに安くて速い、というポジションでした。

しかし、2026年5月19日のGoogle I/O 2026ではProの発表がされず、エージェントやコーディング用途に特化して設計された3.5 Flashのみが発表されました。

スペック

項目	Gemini 3.5 Flash
コンテキストウィンドウ	1,048,576トークン（約100万トークン）
最大出力トークン	65,536トークン
処理速度	約289トークン/秒
入力料金	$1.50 / 1Mトークン
出力料金	$9.00 / 1Mトークン
リリース日	2026年5月19日（GA）

コンテキストウィンドウが約100万トークン、つまり文庫本1,500ページ分です。実務でこれを超えるケースはそうそうないので、そこまで気にする必要はないかなと思います。

引用元：https://ai.google.dev/gemini-api/docs/pricing?hl=ja

旧モデルとの比較

モデル	入力料金	出力料金	位置づけ
Gemini 3.5 Flash	$1.50/1M	$9.00/1M	最新・エージェント特化
Gemini 3.1 Pro	$2.00/1M	$12.00/1M	長文・純粋推論
Gemini 3.1 Flash-Lite	$0.25/1M	$1.50/1M	最も費用対効果の高いモデル

3.5 FlashはGemini 3.1 Proより入力25%安、出力25%安です。速度は約2.1倍速い（289トークン/秒 vs 135トークン/秒）。

料金が安くて速いのに性能が3.1 Proを超える領域があるということになります。

ベンチマーク（何が得意で何が苦手か）

✅ 3.5 Flashが3.1 Proを上回る領域

エージェントとコーディングタスクで明確に上回っています。

ベンチマーク	Gemini 3.5 Flash	Gemini 3.1 Pro
MCP Atlas（コーディングエージェント）	83.6%	78.2%
Terminal-Bench 2.1	76.2%	70.3%
CharXiv Reasoning	84.2%	83.3%
Finance Agent v2	57.9%	43.0%

MCP AtlasはAIエージェントがコードを書いてツールを呼び出すようなタスクを評価するベンチマークです。なんと、エンジニアが日常的に使いたい用途でProを超えています。

⚠️ まだ3.1 Proが上回る領域

正直に書くと、全部が全部3.5 Flashで勝てるわけじゃないです。

ベンチマーク	Gemini 3.5 Flash	Gemini 3.1 Pro
ARC-AGI-2	72.1%	77.1%
Humanity's Last Exam	40.2%	44.4%
MRCR v2（長文理解）	77.3	84.9

200ページを超えるような契約書の精密な検索や、純粋な高度推論タスクは3.1 Proが優位です。ここは3.5 Proのリリース（2026年6月予定）を待った方がよさそうです。

引用元:https://storage.googleapis.com/deepmind-media/gemini/gemini_3-5_flash_model_evaluation.pdf

推論指定方法の変更（thinking_budget ⇒ thinking_level）

3.5 Flashで変わったのが、推論の指定方法です。

以前のモデルではthinking_budget（思考に使えるトークン数）を0〜24,576の数値で指定していました。これは、選択肢が多すぎていくつを指定するべきか判断が難しくありました。

しかし、3.5 Flashからはthinking_levelという直感的なパラメータに変わりました。

thinking_level	使いどころ
minimal	事実に基づく迅速な回答、シンプルなツール呼び出し
low	シンプルなタスク・レイテンシ重視
medium	バランス重視（デフォルト）
high	複雑な推論・コーディング

特にlowでも非常に優秀な性能となっており、コード・エージェントタスクならlowでも十分なクオリティが出るようになっています。レイテンシとコストを両方抑えたい実務では、ここがかなり効いてきます。

引用元：https://ai.google.dev/gemini-api/docs/whats-new-gemini-3.5?hl=ja

Python APIクイックスタート

google-genaiライブラリを使います。

pip install google-genai

基本的なテキスト生成

from google import genai

client = genai.Client()  # 環境変数 GEMINI_API_KEY を参照

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Cloud Run と Cloud Functions の違いを3行で教えて"
)
print(response.text)

実行結果

1. デプロイ単位： Cloud Run は任意の「コンテナ」を動かすのに対し、Cloud Functions は「コード（関数）」をそのまま動かします。
2. 同時処理能力： Cloud Run は1インスタンスで複数リクエストを同時処理できますが、Cloud Functions は1リクエストずつの処理です。
3. 最適な用途： Cloud Run はWebアプリや大規模API向け、Cloud Functions はイベント駆動の軽量なバックグラウンド処理向けです。

thinking_level を指定する場合

from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="2進数の 1011 + 0110 を計算して、途中式も見せて",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(
            thinking_level="high"
        )
    )
)
print(response.text)

実行結果

2進数の「1011 + 0110」の計算結果は、**10001**（2進数）になります。

分かりやすく筆算と、桁ごとの詳しい途中式で解説します。

  [1][1][1]     ← 繰り上がり
    1  0  1  1
 +  0  1  1  0
---------------
 1  0  0  0  1

...（以下省略）

ストリーミング

from google import genai

client = genai.Client()

for chunk in client.models.generate_content_stream(
    model="gemini-3.5-flash",
    contents="Cloud Runの特徴を詳しく説明して"
):
    print(chunk.text, end="")

APIキーは環境変数GEMINI_API_KEYに設定するか、genai.Client(api_key="YOUR_KEY")で直接渡せます。

実行結果

Google Cloudの**Cloud Run（クラウド ラン）**は、Google Cloudが提供する
**「サーバーレスのコンテナ実行環境」**です。

コンテナ（Dockerなど）化したアプリケーションを、インフラの管理を一切すること
なく、迅速にデプロイ・実行できるのが最大の特徴です。
...（以下ストリーミングで続く）

コスト試算

月100万リクエスト（入力500トークン・出力200トークン/リクエスト）で比較してみます。

モデル	月間コスト（概算）
Gemini 3.5 Flash	約$2,550
Gemini 3.1 Pro	約$3,400
差額	約$850の節約

さらにキャッシングを活用すると入力コストが$0.15/1Mまで下がります。同じシステムプロンプトを毎回送るケース（RAGや社内チャットボットなど）ではここが大きく効いてくるので、設計段階で意識しておくと節約になります。

バッチモード（非リアルタイム処理）なら50%割引なので、夜間の大量ドキュメント処理などに使うのもアリです。

結局どのモデルを使えばいい？

やりたいこと	おすすめモデル	理由
AIエージェント・ツール呼び出し	Gemini 3.5 Flash	MCP AtlasでProを超えている
コーディング補助・コードレビュー	Gemini 3.5 Flash	Terminal-Bench 76.2%
チャットボット・FAQ対応	Gemini 3.5 Flash	速度・コスパが圧倒的
大量バッチ処理	Gemini 3.5 Flash（バッチモード）	50%割引でさらに安い
200ページ超の長文ドキュメント解析	Gemini 3.1 Pro	MRCR v2で7.6ポイント優位
最高難易度の論理推論	Gemini 3.1 Pro	ARC-AGI-2・HLEで優位
コスト最優先	Gemini 3.1 Flash-Lite	3.5 Flashの約1/6コスト

ほとんどのケースは3.5 Flashで事足りると思っています。長文ドキュメントの精密解析だけ3.1 Proを使用する、というのがちょうどよいな使い分けだと思います。

まとめ

コーディング・エージェントタスクでProを超えた
速度は3.1 Proの約2.1倍、料金は25%安い
thinking_levelで推論深度を直感的にコントロールできる
長文精密理解はまだ3.1 Proの方が上

2026年6月には3.5 Proのリリースも予定されています。そうなると今度こそ3.5 Flash vs 3.5 Proの直接比較ができるので、それはまた別の記事で書きます。

参考になった方はいいねをいただけると励みになります！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up