Gemini 3.5 Flashとは、2026年5月19日のGoogle I/O 2026で発表されたモデルです。
コーディングとエージェントタスクで、旧バージョンの上位モデルである3.1 Proを超えています。
そんなGemini 3.5 Flashについて、スペック・料金・ベンチマーク・APIの使い方まで、気になるところをまとめました。
この記事で分かること
- Gemini 3.5 Flash のスペック・料金
- 旧モデル(3.1 Flash / 3.1 Pro)との違い
- ベンチマーク(何が得意で何が苦手か)
-
thinking_level(新パラメータ)の使い方 - Python APIのクイックスタートコード
- ユースケース別「どのモデルを使うべきか」早見表
どんなモデル?
「アクションを伴うフロンティア・インテリジェンス」というのがGoogleの公式表現です。
Geminiシリーズはざっくり「Pro(最高性能)」と「Flash(高速・低コスト)」の2系統があり、これまでFlashはProに性能で劣る代わりに安くて速い、というポジションでした。
しかし、2026年5月19日のGoogle I/O 2026ではProの発表がされず、エージェントやコーディング用途に特化して設計された3.5 Flashのみが発表されました。
スペック
| 項目 | Gemini 3.5 Flash |
|---|---|
| コンテキストウィンドウ | 1,048,576トークン(約100万トークン) |
| 最大出力トークン | 65,536トークン |
| 処理速度 | 約289トークン/秒 |
| 入力料金 | $1.50 / 1Mトークン |
| 出力料金 | $9.00 / 1Mトークン |
| リリース日 | 2026年5月19日(GA) |
コンテキストウィンドウが約100万トークン、つまり文庫本1,500ページ分です。実務でこれを超えるケースはそうそうないので、そこまで気にする必要はないかなと思います。

引用元:https://ai.google.dev/gemini-api/docs/pricing?hl=ja
旧モデルとの比較
| モデル | 入力料金 | 出力料金 | 位置づけ |
|---|---|---|---|
| Gemini 3.5 Flash | $1.50/1M | $9.00/1M | 最新・エージェント特化 |
| Gemini 3.1 Pro | $2.00/1M | $12.00/1M | 長文・純粋推論 |
| Gemini 3.1 Flash-Lite | $0.25/1M | $1.50/1M | 最も費用対効果の高いモデル |
3.5 FlashはGemini 3.1 Proより入力25%安、出力25%安です。速度は約2.1倍速い(289トークン/秒 vs 135トークン/秒)。
料金が安くて速いのに性能が3.1 Proを超える領域があるということになります。
ベンチマーク(何が得意で何が苦手か)
✅ 3.5 Flashが3.1 Proを上回る領域
エージェントとコーディングタスクで明確に上回っています。
| ベンチマーク | Gemini 3.5 Flash | Gemini 3.1 Pro |
|---|---|---|
| MCP Atlas(コーディングエージェント) | 83.6% | 78.2% |
| Terminal-Bench 2.1 | 76.2% | 70.3% |
| CharXiv Reasoning | 84.2% | 83.3% |
| Finance Agent v2 | 57.9% | 43.0% |
MCP AtlasはAIエージェントがコードを書いてツールを呼び出すようなタスクを評価するベンチマークです。なんと、エンジニアが日常的に使いたい用途でProを超えています。
⚠️ まだ3.1 Proが上回る領域
正直に書くと、全部が全部3.5 Flashで勝てるわけじゃないです。
| ベンチマーク | Gemini 3.5 Flash | Gemini 3.1 Pro |
|---|---|---|
| ARC-AGI-2 | 72.1% | 77.1% |
| Humanity's Last Exam | 40.2% | 44.4% |
| MRCR v2(長文理解) | 77.3 | 84.9 |
200ページを超えるような契約書の精密な検索や、純粋な高度推論タスクは3.1 Proが優位です。ここは3.5 Proのリリース(2026年6月予定)を待った方がよさそうです。

引用元:https://storage.googleapis.com/deepmind-media/gemini/gemini_3-5_flash_model_evaluation.pdf
推論指定方法の変更(thinking_budget ⇒ thinking_level)
3.5 Flashで変わったのが、推論の指定方法です。
以前のモデルではthinking_budget(思考に使えるトークン数)を0〜24,576の数値で指定していました。これは、選択肢が多すぎていくつを指定するべきか判断が難しくありました。
しかし、3.5 Flashからはthinking_levelという直感的なパラメータに変わりました。
| thinking_level | 使いどころ |
|---|---|
| minimal | 事実に基づく迅速な回答、シンプルなツール呼び出し |
| low | シンプルなタスク・レイテンシ重視 |
| medium | バランス重視(デフォルト) |
| high | 複雑な推論・コーディング |
特にlowでも非常に優秀な性能となっており、コード・エージェントタスクならlowでも十分なクオリティが出るようになっています。レイテンシとコストを両方抑えたい実務では、ここがかなり効いてきます。

引用元:https://ai.google.dev/gemini-api/docs/whats-new-gemini-3.5?hl=ja
Python APIクイックスタート
google-genaiライブラリを使います。
pip install google-genai
基本的なテキスト生成
from google import genai
client = genai.Client() # 環境変数 GEMINI_API_KEY を参照
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Cloud Run と Cloud Functions の違いを3行で教えて"
)
print(response.text)
実行結果
1. デプロイ単位: Cloud Run は任意の「コンテナ」を動かすのに対し、Cloud Functions は「コード(関数)」をそのまま動かします。
2. 同時処理能力: Cloud Run は1インスタンスで複数リクエストを同時処理できますが、Cloud Functions は1リクエストずつの処理です。
3. 最適な用途: Cloud Run はWebアプリや大規模API向け、Cloud Functions はイベント駆動の軽量なバックグラウンド処理向けです。
thinking_level を指定する場合
from google import genai
from google.genai import types
client = genai.Client()
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="2進数の 1011 + 0110 を計算して、途中式も見せて",
config=types.GenerateContentConfig(
thinking_config=types.ThinkingConfig(
thinking_level="high"
)
)
)
print(response.text)
実行結果
2進数の「1011 + 0110」の計算結果は、**10001**(2進数)になります。
分かりやすく筆算と、桁ごとの詳しい途中式で解説します。
[1][1][1] ← 繰り上がり
1 0 1 1
+ 0 1 1 0
---------------
1 0 0 0 1
...(以下省略)
ストリーミング
from google import genai
client = genai.Client()
for chunk in client.models.generate_content_stream(
model="gemini-3.5-flash",
contents="Cloud Runの特徴を詳しく説明して"
):
print(chunk.text, end="")
APIキーは環境変数GEMINI_API_KEYに設定するか、genai.Client(api_key="YOUR_KEY")で直接渡せます。
実行結果
Google Cloudの**Cloud Run(クラウド ラン)**は、Google Cloudが提供する
**「サーバーレスのコンテナ実行環境」**です。
コンテナ(Dockerなど)化したアプリケーションを、インフラの管理を一切すること
なく、迅速にデプロイ・実行できるのが最大の特徴です。
...(以下ストリーミングで続く)
コスト試算
月100万リクエスト(入力500トークン・出力200トークン/リクエスト)で比較してみます。
| モデル | 月間コスト(概算) |
|---|---|
| Gemini 3.5 Flash | 約$2,550 |
| Gemini 3.1 Pro | 約$3,400 |
| 差額 | 約$850の節約 |
さらにキャッシングを活用すると入力コストが$0.15/1Mまで下がります。同じシステムプロンプトを毎回送るケース(RAGや社内チャットボットなど)ではここが大きく効いてくるので、設計段階で意識しておくと節約になります。
バッチモード(非リアルタイム処理)なら50%割引なので、夜間の大量ドキュメント処理などに使うのもアリです。
結局どのモデルを使えばいい?
| やりたいこと | おすすめモデル | 理由 |
|---|---|---|
| AIエージェント・ツール呼び出し | Gemini 3.5 Flash | MCP AtlasでProを超えている |
| コーディング補助・コードレビュー | Gemini 3.5 Flash | Terminal-Bench 76.2% |
| チャットボット・FAQ対応 | Gemini 3.5 Flash | 速度・コスパが圧倒的 |
| 大量バッチ処理 | Gemini 3.5 Flash(バッチモード) | 50%割引でさらに安い |
| 200ページ超の長文ドキュメント解析 | Gemini 3.1 Pro | MRCR v2で7.6ポイント優位 |
| 最高難易度の論理推論 | Gemini 3.1 Pro | ARC-AGI-2・HLEで優位 |
| コスト最優先 | Gemini 3.1 Flash-Lite | 3.5 Flashの約1/6コスト |
ほとんどのケースは3.5 Flashで事足りると思っています。長文ドキュメントの精密解析だけ3.1 Proを使用する、というのがちょうどよいな使い分けだと思います。
まとめ
- コーディング・エージェントタスクでProを超えた
- 速度は3.1 Proの約2.1倍、料金は25%安い
-
thinking_levelで推論深度を直感的にコントロールできる - 長文精密理解はまだ3.1 Proの方が上
2026年6月には3.5 Proのリリースも予定されています。そうなると今度こそ3.5 Flash vs 3.5 Proの直接比較ができるので、それはまた別の記事で書きます。
参考になった方はいいねをいただけると励みになります!