Geminiは"安い"だけじゃない—専用APIを置き換える時代が来た

Posted at 2026-01-05

エンジニアとしてGemini APIを使い始めて気づいたことがある。「安い」のは知っていた。でも本当に面白いのは、従来の専用APIより安くて、下手したら良い結果が得られるという逆転現象だ。

前提：Geminiの料金は確かに安い

まず他のLLMとの比較を見てほしい。

モデル	Input (per 1M tokens)	Output (per 1M tokens)
Gemini 2.5 Flash-Lite	$0.10	$0.40
Gemini 2.5 Flash	$0.15	$0.60
GPT-4o mini	$0.15	$0.60
Claude 3.5 Haiku	$0.80	$4.00

Gemini 2.5 Flash-Liteは入力$0.10/100万トークン。Claude Haikuの8分の1だ。これだけでも十分インパクトがあるが、本題はここからだ。

ケース1：検索API vs Web Grounding

従来のアプローチ

「最新情報を取得してユーザーに回答する」という処理を考える。

従来の構成：

Google Custom Search APIで検索（$5/1,000クエリ = $0.005/回）
結果をLLMに渡して解釈・要約
回答生成

1回の検索で済めばいいが、複数の検索が必要なケースも多い。さらにLLMでの解釈コストが加わる。

Gemini Web Grounding

Geminiには「Grounding with Google Search」機能がある。

Gemini 2.5以下：$35/1,000プロンプト（1,500クエリ/日は無料）
Gemini 3：$14/1,000検索クエリ

一見高く見えるが、検索と解釈が一体化している点がポイントだ。

実際のコスト比較

「〇〇について最新情報を調べて要約して」という処理で、平均3回の検索が必要だとする。

従来方式：

検索3回：$0.005 × 3 = $0.015
LLM解釈（GPT-4o mini想定）：約$0.001〜0.005
合計：約$0.02/リクエスト

Gemini Web Grounding：

$0.035/プロンプト（検索＋解釈込み）

単純計算では従来方式が安いが、検索回数が増えたり、複雑な解釈が必要になると逆転する。そして何より実装がシンプルになる。

ケース2：翻訳API vs Gemini翻訳

料金比較

サービス	料金
Google Cloud Translation API	$20/100万文字
Gemini 2.5 Flash-Lite	約$0.50/100万文字相当

約40倍の差がある。

計算根拠

1,000文字の日本語を英語に翻訳するケースで試算：

入力：約1,000トークン
出力：約2,000トークン

Gemini Flash-Liteの場合：

入力：$0.10/1M × 1,000 = $0.0001
出力：$0.40/1M × 2,000 = $0.0008
合計：約$0.0009/1,000文字

Translation APIの場合：

$20/1M × 1,000 = $0.02/1,000文字

品質面

Translation APIは機械翻訳として高品質だが、LLMによる翻訳には別の強みがある：

文脈理解：前後の文脈を踏まえた訳出
トーン調整：「カジュアルに」「ビジネス文書として」等の指示が可能
専門用語対応：ドメイン知識を活かした翻訳

単純な翻訳精度では専用APIに軍配が上がる場面もあるが、柔軟性を含めた総合力ではLLMが勝るケースが増えている。

ケース3：OCR/レシート解析 vs Geminiマルチモーダル

料金比較

サービス	料金
Google Cloud Vision API（OCR）	$1.50/1,000画像
AWS Textract（領収書解析）	$10/1,000ページ
Gemini（画像入力）	約$0.06/1,000画像

Geminiの画像入力は1枚あたり約560トークン。Flash-Liteベースで計算すると、1,000枚で約$0.056だ。

何が違うのか

Vision APIやTextractは「文字を読み取る」ことに特化している。一方Geminiは：

画像を見る
文字を認識する
構造を理解してJSONなどに変換する

これが1回のAPI呼び出しで完結する。

従来のレシート解析フロー：

画像 → OCR API → テキスト → パース処理 → 構造化データ

Geminiでのフロー：

画像 → Gemini → 構造化データ

「このレシートから店名、日付、合計金額、明細をJSON形式で抽出して」と投げるだけで終わる。

精度について

専用のTextractは領収書・請求書に特化してチューニングされているため、フォーマットが決まっている書類では高精度だ。一方、Geminiは汎用的な理解力で対応するため、想定外のレイアウトにも柔軟に対応できる。

用途に応じた使い分けが現実的だが、プロトタイピングや多様なフォーマットを扱う場面ではGeminiが圧倒的に楽だ。

ケース4：サーバーレス関数 vs Gemini Code Execution

これは単純なコスト比較ではない

正直に言うと、単純な処理コストではサーバーレス関数の方が安い。

サービス	リクエスト料金
AWS Lambda	$0.20/100万リクエスト
Google Cloud Functions	$0.40/100万リクエスト
Gemini	トークン代（はるかに高い）

では何が違うのか？コードを動的に生成して実行できる点だ。

従来のサーバーレス

事前にコードを書く → デプロイ → 決まった処理を実行

処理内容を変えたければ、コードを修正してデプロイし直す必要がある。

Gemini Code Execution

自然言語で指示 → LLMがコードを生成 → 実行 → 結果を返す

これはメタプログラミングだ。実行時にコード自体を構成できる。

具体例

例1：動的な集計処理

「このCSVデータを、ユーザーが指定した条件で集計して」

従来なら、あらゆる集計パターンを事前に実装しておく必要があった。Geminiなら「売上を月別に」「商品カテゴリ別の平均単価」など、自然言語の指示に応じてコードを生成して実行できる。

例2：数式の評価

「(3x + 2y) / z を x=5, y=3, z=2 で計算して」

任意の数式を受け取って評価する処理。従来なら数式パーサーを実装するか、evalを使う（セキュリティリスク）か、という選択だった。

例3：データ変換

「このXMLをJSONに変換して、ただしnull値は除外して」

変換ルールを自然言語で指示できる。

本当の価値

Gemini Code Executionの価値は「Lambdaより安い」ではない。

今まで実装コストが高すぎて諦めていた「柔軟な処理」が、ほぼゼロコストで実現できることだ。

実装不要（プロンプトを書くだけ）
デプロイ不要
メンテナンス不要

開発者の時間コストを考えれば、トークン代など誤差の範囲だ。

注意点

Gemini Code ExecutionはPython限定、使えるライブラリにも制限あり
複雑な処理や外部API連携は従来通りサーバーレス関数が必要
実行時間の上限あり

万能ではないが、「ちょっとした計算」「データ変換」「バリデーション」程度の処理なら十分実用的だ。

なぜ専用APIより安いのか

いくつかの要因が考えられる。

1. スケールメリット

LLMは汎用モデルとして膨大なトラフィックを捌いている。個別の専用APIよりもスケールメリットが効きやすい。

2. 汎用モデルの進化

かつては「専用モデル > 汎用モデル」が常識だった。翻訳には翻訳専用モデル、OCRにはOCR専用モデル。しかしLLMの進化により、汎用モデルが専用モデルに匹敵する性能を出せるようになった。

3. 戦略的価格設定

GoogleはGeminiのシェア拡大を狙っている。OpenAIやAnthropicとの競争の中で、価格は重要な差別化要因だ。

注意点・使い分け

すべてをGeminiに置き換えればいいわけではない。

専用APIを使うべきケース

SLAが必要：ミッションクリティカルな処理
精度保証が必要：金融・医療など
大量処理：レート制限に引っかかる場合
決まった処理の繰り返し：専用APIの方が安定・高速

Geminiが向いているケース

プロトタイピング：素早く試したい
多様な入力への対応：フォーマットが統一されていない
柔軟な処理：要件が頻繁に変わる
複合的なタスク：検索→解釈→生成など

まとめ

Geminiの「安さ」は、単にトークン単価が安いだけではない。

検索＋解釈を一体化してWeb Groundingで提供
翻訳を汎用LLMで代替し、柔軟性も獲得
OCR＋構造化をマルチモーダルで一発処理
動的なコード生成・実行でサーバーレス関数の実装コストを削減

「専用APIを使うのが当たり前」という前提を疑ってみる価値がある。特に新規開発やプロトタイピングでは、Geminiで始めて、必要に応じて専用APIに移行する戦略が有効だろう。

LLMは「賢いテキスト生成器」から「安くて柔軟な万能API」へと進化している。その最前線にいるのがGeminiだ。

宣伝：これらを活用して作ったアプリ

本記事で紹介したGeminiの活用法を、実際にプロダクトに組み込んでいる。

まとめね - レシートを撮るだけでAIが自動で家計簿を作成するアプリ

レシート撮影 → AI自動読み取り・分類（ケース3で紹介したマルチモーダル活用）
音声入力：「スタバで500円」と話すだけで記録
チャット分析：「先月の食費は？」と聞くだけで回答

月額300円。専用OCR APIを使っていたらこの価格では提供できなかった。

おまけ

この記事自体はGeminiではなくClaudeで5分でまとめました。

コスト度外視したらGeminiより断然Claude派です。

この記事の料金情報は2025年1月時点のものです。最新の料金は各サービスの公式ページをご確認ください。

参考リンク

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up