はじめに
こんにちは。普段から生成AIを使った開発や環境構築を行っているみなさん、最新の Gemini 3.5 Flash はもう試しましたか?
「Flashといえば軽量・高速・格安」というのがこれまでの常識でした。しかし、先日GA(一般提供)された最新の Gemini 3.5 Flash の料金体系と内部の仕組みを紐解いていくと、タスクや設定によっては**「Pro(3.1 Pro)を使うよりも、Flashを使った方がトータルの実行コストが高くなる」**という、意外な逆転現象が発生する可能性が見えてきました。
このコスト逆転の大きな引き金となっているのが、新世代モデルから標準搭載された**「思考(Thinking)プロセス」**です。
最新の3.5 Flashは、裏で自律的に推論ステップを回すことでPro並みの利口さを手に入れました。しかし驚くべきことに、APIの課金仕様において**「画面には見えない、AIが裏で熟考した分の思考トークン」もバッチリ出力料金として加算される仕組み**に変わっているのです。単価そのものがプレビュー版から約3倍に値上がりしたこと、そしてこの「思考トークン課金」のダブルパンチにより、消費スピードは従来のFlashの比ではありません。
「お買い得だから」とこれまでの感覚でFlashをぶん回していると、APIの請求書やAntigravityなどのクォータ消費が予想以上に膨らむかもしれません。そのカラクリと、開発者が知っておくべき注意点を解説します。
1. 単価が「3倍」に上昇した最新の 3.5 Flash
まず、プレビュー版(Gemini 3 Flash Preview)から製品版(Gemini 3.5 Flash)になったことで、APIの従量課金料金が約3倍に値上がりしました。
| モデル | 入力(100万トークン) | 出力(100万トークン) |
|---|---|---|
| 旧 3 Flash Preview | $0.50 | $3.00 |
| 新 3.5 Flash | $1.50 | $9.00 |
| Gemini 3.1 Pro | $2.00 | $12.00 |
これだけでも「Proの価格にかなり肉薄してきたな……」という印象ですが、問題は単価だけではありません。
2. コスト逆転の引き金:「思考(Thinking)プロセス」
3.5 Flash がこれほど値上がりした理由は、内部に「思考(Thinking)プロセス」が導入され、Pro並みの高度な推論やコーディング能力を手に入れたためです。
しかし、ここにコスト面の注意点があります。「裏で回っている思考トークン」にも、バッチリ出力料金($9.00 / 1M)が適用される点です。
複雑なタスクでは消費トークン数が跳ね上がる
Artificial Analysisなどのベンチマーク・シミュレーション(高負荷な推論テストなど)によると、特定の複雑な実務タスクを処理させた場合、3.5 Flash は 3.1 Pro の約3倍のトークン数を消費したというデータも報告されています。
AIが最適な回答やコードをひねり出すために、裏で「思考」を深く回した分だけ、最終的な成果物の文字数が短くても、トークン数がユーザーの意図しないところで大量に加算される構造になっています。
3. 【検証】どれくらいコストが逆転する可能性があるのか?
同じ「100万トークンの成果物(最終出力)」を得るために、3.5 Flashが裏で3倍(300万トークン分)思考したと仮定して、出力コストを単純計算してみます。
- Gemini 3.1 Pro (思考なしでストレートに出力)
$$\text{100万トークン} \times $12.00 = \mathbf{$12.00}$$
- Gemini 3.5 Flash (3倍のトークンを消費)
$$\text{300万トークン} \times $9.00 = \mathbf{$27.00}$$
このように、「単価はProより安いが、総コストはFlashの方が高くなる」という逆転現象が起こり得るのです。
AntigravityなどのUIツールを使っている場合も同様の注意が必要です。最近のアップデートで「API価格に比例して消費される共通プール(共有クォータ)制」に移行したため、3.5 Flashで重い処理を連打していると、Proを使っている時以上のスピードで利用枠が削られていく可能性があります。
4. それでも 3.5 Flash を選ぶ理由とは?
「コストが高くなるリスクがあるなら、もうFlashを使う意味なんてないのでは?」と思ってしまいますが、Googleは 3.5 Flash のアイデンティティを「安さ」から「爆速の推論エージェント」へとシフトさせました。
3.5 Flash の最大の強みは「圧倒的なスピード」です。
3.1 Pro よりも約4倍高速(秒間約270トークン以上)で出力を返します。
つまり、現在の 3.5 Flash は単なるエコノミーモデルではなく、「Proと同等クラスの知能を、待ち時間を極限まで減らして爆速で動かしたい人のための実用モデル」と言えます。
5. 開発者が取るべき「賢いコスト管理」
この仕様を念頭に置き、私たちは用途に合わせてシビアにコントロールする必要があります。
-
「思考(Thinking)」のレベルを調整する
APIではthinking_levelパラメータが利用できます。これをminimalやlowに設定して思考を抑えれば、無駄なトークン消費を削り、本来の「高速・軽量モデル」として運用可能です(※デフォルトはmediumに設定されています)。 -
本当のコスト最優先なら「3.1 Flash-Lite」へ逃げる
シンプルなコード生成、ログのパース、大量のテキスト処理など、高度な推論が不要なタスクであれば、単価が圧倒的に安い3.1 Flash-Liteを選択するのが、かつての「Flash」のコスト感に一番近いです。
まとめ
- 最新の 3.5 Flash は、思考トークンの消費量によってはトータルコストが Pro を超える可能性がある。
- 名前は「Flash」のままだが、中身は「Pro並みに賢い爆速ハイエンドモデル」に近い性質に変貌している。
- 用途に応じて Thinkingのレベル設定 や Flash-Liteへの切り替え を賢く選択しよう。
「Flash=いつでも最安」という固定観念を一度アップデートし、新しい仕様を正しくハックして、効率よくAI開発を回していきましょう!
参考ソース
-
Google AI Studio Gemini API Pricing
※Output priceに "(including thinking tokens)" と明記されています。 -
Artificial Analysis - Gemini 3.5 Flash Analysis
※特定のベンチマーク測定において、3.5 Flashが3.1 Proより75%高コストになった実測データが報告されています。
