エンジニアとしてGemini APIを使い始めて気づいたことがある。「安い」のは知っていた。でも本当に面白いのは、従来の専用APIより安くて、下手したら良い結果が得られるという逆転現象だ。
前提:Geminiの料金は確かに安い
まず他のLLMとの比較を見てほしい。
| モデル | Input (per 1M tokens) | Output (per 1M tokens) |
|---|---|---|
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 |
| Gemini 2.5 Flash | $0.15 | $0.60 |
| GPT-4o mini | $0.15 | $0.60 |
| Claude 3.5 Haiku | $0.80 | $4.00 |
Gemini 2.5 Flash-Liteは入力$0.10/100万トークン。Claude Haikuの8分の1だ。これだけでも十分インパクトがあるが、本題はここからだ。
ケース1:検索API vs Web Grounding
従来のアプローチ
「最新情報を取得してユーザーに回答する」という処理を考える。
従来の構成:
- Google Custom Search APIで検索($5/1,000クエリ = $0.005/回)
- 結果をLLMに渡して解釈・要約
- 回答生成
1回の検索で済めばいいが、複数の検索が必要なケースも多い。さらにLLMでの解釈コストが加わる。
Gemini Web Grounding
Geminiには「Grounding with Google Search」機能がある。
- Gemini 2.5以下:$35/1,000プロンプト(1,500クエリ/日は無料)
- Gemini 3:$14/1,000検索クエリ
一見高く見えるが、検索と解釈が一体化している点がポイントだ。
実際のコスト比較
「〇〇について最新情報を調べて要約して」という処理で、平均3回の検索が必要だとする。
従来方式:
- 検索3回:$0.005 × 3 = $0.015
- LLM解釈(GPT-4o mini想定):約$0.001〜0.005
- 合計:約$0.02/リクエスト
Gemini Web Grounding:
- $0.035/プロンプト(検索+解釈込み)
単純計算では従来方式が安いが、検索回数が増えたり、複雑な解釈が必要になると逆転する。そして何より実装がシンプルになる。
ケース2:翻訳API vs Gemini翻訳
料金比較
| サービス | 料金 |
|---|---|
| Google Cloud Translation API | $20/100万文字 |
| Gemini 2.5 Flash-Lite | 約$0.50/100万文字相当 |
約40倍の差がある。
計算根拠
1,000文字の日本語を英語に翻訳するケースで試算:
- 入力:約1,000トークン
- 出力:約2,000トークン
Gemini Flash-Liteの場合:
- 入力:$0.10/1M × 1,000 = $0.0001
- 出力:$0.40/1M × 2,000 = $0.0008
- 合計:約$0.0009/1,000文字
Translation APIの場合:
- $20/1M × 1,000 = $0.02/1,000文字
品質面
Translation APIは機械翻訳として高品質だが、LLMによる翻訳には別の強みがある:
- 文脈理解:前後の文脈を踏まえた訳出
- トーン調整:「カジュアルに」「ビジネス文書として」等の指示が可能
- 専門用語対応:ドメイン知識を活かした翻訳
単純な翻訳精度では専用APIに軍配が上がる場面もあるが、柔軟性を含めた総合力ではLLMが勝るケースが増えている。
ケース3:OCR/レシート解析 vs Geminiマルチモーダル
料金比較
| サービス | 料金 |
|---|---|
| Google Cloud Vision API(OCR) | $1.50/1,000画像 |
| AWS Textract(領収書解析) | $10/1,000ページ |
| Gemini(画像入力) | 約$0.06/1,000画像 |
Geminiの画像入力は1枚あたり約560トークン。Flash-Liteベースで計算すると、1,000枚で約$0.056だ。
何が違うのか
Vision APIやTextractは「文字を読み取る」ことに特化している。一方Geminiは:
- 画像を見る
- 文字を認識する
- 構造を理解してJSONなどに変換する
これが1回のAPI呼び出しで完結する。
従来のレシート解析フロー:
画像 → OCR API → テキスト → パース処理 → 構造化データ
Geminiでのフロー:
画像 → Gemini → 構造化データ
「このレシートから店名、日付、合計金額、明細をJSON形式で抽出して」と投げるだけで終わる。
精度について
専用のTextractは領収書・請求書に特化してチューニングされているため、フォーマットが決まっている書類では高精度だ。一方、Geminiは汎用的な理解力で対応するため、想定外のレイアウトにも柔軟に対応できる。
用途に応じた使い分けが現実的だが、プロトタイピングや多様なフォーマットを扱う場面ではGeminiが圧倒的に楽だ。
ケース4:サーバーレス関数 vs Gemini Code Execution
これは単純なコスト比較ではない
正直に言うと、単純な処理コストではサーバーレス関数の方が安い。
| サービス | リクエスト料金 |
|---|---|
| AWS Lambda | $0.20/100万リクエスト |
| Google Cloud Functions | $0.40/100万リクエスト |
| Gemini | トークン代(はるかに高い) |
では何が違うのか?コードを動的に生成して実行できる点だ。
従来のサーバーレス
事前にコードを書く → デプロイ → 決まった処理を実行
処理内容を変えたければ、コードを修正してデプロイし直す必要がある。
Gemini Code Execution
自然言語で指示 → LLMがコードを生成 → 実行 → 結果を返す
これはメタプログラミングだ。実行時にコード自体を構成できる。
具体例
例1:動的な集計処理
「このCSVデータを、ユーザーが指定した条件で集計して」
従来なら、あらゆる集計パターンを事前に実装しておく必要があった。Geminiなら「売上を月別に」「商品カテゴリ別の平均単価」など、自然言語の指示に応じてコードを生成して実行できる。
例2:数式の評価
「(3x + 2y) / z を x=5, y=3, z=2 で計算して」
任意の数式を受け取って評価する処理。従来なら数式パーサーを実装するか、evalを使う(セキュリティリスク)か、という選択だった。
例3:データ変換
「このXMLをJSONに変換して、ただしnull値は除外して」
変換ルールを自然言語で指示できる。
本当の価値
Gemini Code Executionの価値は「Lambdaより安い」ではない。
今まで実装コストが高すぎて諦めていた「柔軟な処理」が、ほぼゼロコストで実現できることだ。
- 実装不要(プロンプトを書くだけ)
- デプロイ不要
- メンテナンス不要
開発者の時間コストを考えれば、トークン代など誤差の範囲だ。
注意点
- Gemini Code ExecutionはPython限定、使えるライブラリにも制限あり
- 複雑な処理や外部API連携は従来通りサーバーレス関数が必要
- 実行時間の上限あり
万能ではないが、「ちょっとした計算」「データ変換」「バリデーション」程度の処理なら十分実用的だ。
なぜ専用APIより安いのか
いくつかの要因が考えられる。
1. スケールメリット
LLMは汎用モデルとして膨大なトラフィックを捌いている。個別の専用APIよりもスケールメリットが効きやすい。
2. 汎用モデルの進化
かつては「専用モデル > 汎用モデル」が常識だった。翻訳には翻訳専用モデル、OCRにはOCR専用モデル。しかしLLMの進化により、汎用モデルが専用モデルに匹敵する性能を出せるようになった。
3. 戦略的価格設定
GoogleはGeminiのシェア拡大を狙っている。OpenAIやAnthropicとの競争の中で、価格は重要な差別化要因だ。
注意点・使い分け
すべてをGeminiに置き換えればいいわけではない。
専用APIを使うべきケース
- SLAが必要:ミッションクリティカルな処理
- 精度保証が必要:金融・医療など
- 大量処理:レート制限に引っかかる場合
- 決まった処理の繰り返し:専用APIの方が安定・高速
Geminiが向いているケース
- プロトタイピング:素早く試したい
- 多様な入力への対応:フォーマットが統一されていない
- 柔軟な処理:要件が頻繁に変わる
- 複合的なタスク:検索→解釈→生成など
まとめ
Geminiの「安さ」は、単にトークン単価が安いだけではない。
- 検索+解釈を一体化してWeb Groundingで提供
- 翻訳を汎用LLMで代替し、柔軟性も獲得
- OCR+構造化をマルチモーダルで一発処理
- 動的なコード生成・実行でサーバーレス関数の実装コストを削減
「専用APIを使うのが当たり前」という前提を疑ってみる価値がある。特に新規開発やプロトタイピングでは、Geminiで始めて、必要に応じて専用APIに移行する戦略が有効だろう。
LLMは「賢いテキスト生成器」から「安くて柔軟な万能API」へと進化している。その最前線にいるのがGeminiだ。
宣伝:これらを活用して作ったアプリ
本記事で紹介したGeminiの活用法を、実際にプロダクトに組み込んでいる。
まとめね - レシートを撮るだけでAIが自動で家計簿を作成するアプリ
- レシート撮影 → AI自動読み取り・分類(ケース3で紹介したマルチモーダル活用)
- 音声入力:「スタバで500円」と話すだけで記録
- チャット分析:「先月の食費は?」と聞くだけで回答
月額300円。専用OCR APIを使っていたらこの価格では提供できなかった。
おまけ
この記事自体はGeminiではなくClaudeで5分でまとめました。
コスト度外視したらGeminiより断然Claude派です。
この記事の料金情報は2025年1月時点のものです。最新の料金は各サービスの公式ページをご確認ください。