2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Geminiは"安い"だけじゃない—専用APIを置き換える時代が来た

2
Posted at

エンジニアとしてGemini APIを使い始めて気づいたことがある。「安い」のは知っていた。でも本当に面白いのは、従来の専用APIより安くて、下手したら良い結果が得られるという逆転現象だ。

前提:Geminiの料金は確かに安い

まず他のLLMとの比較を見てほしい。

モデル Input (per 1M tokens) Output (per 1M tokens)
Gemini 2.5 Flash-Lite $0.10 $0.40
Gemini 2.5 Flash $0.15 $0.60
GPT-4o mini $0.15 $0.60
Claude 3.5 Haiku $0.80 $4.00

Gemini 2.5 Flash-Liteは入力$0.10/100万トークン。Claude Haikuの8分の1だ。これだけでも十分インパクトがあるが、本題はここからだ。

ケース1:検索API vs Web Grounding

従来のアプローチ

「最新情報を取得してユーザーに回答する」という処理を考える。

従来の構成:

  1. Google Custom Search APIで検索($5/1,000クエリ = $0.005/回)
  2. 結果をLLMに渡して解釈・要約
  3. 回答生成

1回の検索で済めばいいが、複数の検索が必要なケースも多い。さらにLLMでの解釈コストが加わる。

Gemini Web Grounding

Geminiには「Grounding with Google Search」機能がある。

  • Gemini 2.5以下:$35/1,000プロンプト(1,500クエリ/日は無料)
  • Gemini 3:$14/1,000検索クエリ

一見高く見えるが、検索と解釈が一体化している点がポイントだ。

実際のコスト比較

「〇〇について最新情報を調べて要約して」という処理で、平均3回の検索が必要だとする。

従来方式:

  • 検索3回:$0.005 × 3 = $0.015
  • LLM解釈(GPT-4o mini想定):約$0.001〜0.005
  • 合計:約$0.02/リクエスト

Gemini Web Grounding:

  • $0.035/プロンプト(検索+解釈込み)

単純計算では従来方式が安いが、検索回数が増えたり、複雑な解釈が必要になると逆転する。そして何より実装がシンプルになる。

ケース2:翻訳API vs Gemini翻訳

料金比較

サービス 料金
Google Cloud Translation API $20/100万文字
Gemini 2.5 Flash-Lite 約$0.50/100万文字相当

約40倍の差がある。

計算根拠

1,000文字の日本語を英語に翻訳するケースで試算:

  • 入力:約1,000トークン
  • 出力:約2,000トークン

Gemini Flash-Liteの場合:

  • 入力:$0.10/1M × 1,000 = $0.0001
  • 出力:$0.40/1M × 2,000 = $0.0008
  • 合計:約$0.0009/1,000文字

Translation APIの場合:

  • $20/1M × 1,000 = $0.02/1,000文字

品質面

Translation APIは機械翻訳として高品質だが、LLMによる翻訳には別の強みがある:

  • 文脈理解:前後の文脈を踏まえた訳出
  • トーン調整:「カジュアルに」「ビジネス文書として」等の指示が可能
  • 専門用語対応:ドメイン知識を活かした翻訳

単純な翻訳精度では専用APIに軍配が上がる場面もあるが、柔軟性を含めた総合力ではLLMが勝るケースが増えている。

ケース3:OCR/レシート解析 vs Geminiマルチモーダル

料金比較

サービス 料金
Google Cloud Vision API(OCR) $1.50/1,000画像
AWS Textract(領収書解析) $10/1,000ページ
Gemini(画像入力) 約$0.06/1,000画像

Geminiの画像入力は1枚あたり約560トークン。Flash-Liteベースで計算すると、1,000枚で約$0.056だ。

何が違うのか

Vision APIやTextractは「文字を読み取る」ことに特化している。一方Geminiは:

  1. 画像を見る
  2. 文字を認識する
  3. 構造を理解してJSONなどに変換する

これが1回のAPI呼び出しで完結する。

従来のレシート解析フロー:

画像 → OCR API → テキスト → パース処理 → 構造化データ

Geminiでのフロー:

画像 → Gemini → 構造化データ

「このレシートから店名、日付、合計金額、明細をJSON形式で抽出して」と投げるだけで終わる。

精度について

専用のTextractは領収書・請求書に特化してチューニングされているため、フォーマットが決まっている書類では高精度だ。一方、Geminiは汎用的な理解力で対応するため、想定外のレイアウトにも柔軟に対応できる。

用途に応じた使い分けが現実的だが、プロトタイピングや多様なフォーマットを扱う場面ではGeminiが圧倒的に楽だ。

ケース4:サーバーレス関数 vs Gemini Code Execution

これは単純なコスト比較ではない

正直に言うと、単純な処理コストではサーバーレス関数の方が安い。

サービス リクエスト料金
AWS Lambda $0.20/100万リクエスト
Google Cloud Functions $0.40/100万リクエスト
Gemini トークン代(はるかに高い)

では何が違うのか?コードを動的に生成して実行できる点だ。

従来のサーバーレス

事前にコードを書く → デプロイ → 決まった処理を実行

処理内容を変えたければ、コードを修正してデプロイし直す必要がある。

Gemini Code Execution

自然言語で指示 → LLMがコードを生成 → 実行 → 結果を返す

これはメタプログラミングだ。実行時にコード自体を構成できる。

具体例

例1:動的な集計処理

「このCSVデータを、ユーザーが指定した条件で集計して」

従来なら、あらゆる集計パターンを事前に実装しておく必要があった。Geminiなら「売上を月別に」「商品カテゴリ別の平均単価」など、自然言語の指示に応じてコードを生成して実行できる。

例2:数式の評価

「(3x + 2y) / z を x=5, y=3, z=2 で計算して」

任意の数式を受け取って評価する処理。従来なら数式パーサーを実装するか、evalを使う(セキュリティリスク)か、という選択だった。

例3:データ変換

「このXMLをJSONに変換して、ただしnull値は除外して」

変換ルールを自然言語で指示できる。

本当の価値

Gemini Code Executionの価値は「Lambdaより安い」ではない。

今まで実装コストが高すぎて諦めていた「柔軟な処理」が、ほぼゼロコストで実現できることだ。

  • 実装不要(プロンプトを書くだけ)
  • デプロイ不要
  • メンテナンス不要

開発者の時間コストを考えれば、トークン代など誤差の範囲だ。

注意点

  • Gemini Code ExecutionはPython限定、使えるライブラリにも制限あり
  • 複雑な処理や外部API連携は従来通りサーバーレス関数が必要
  • 実行時間の上限あり

万能ではないが、「ちょっとした計算」「データ変換」「バリデーション」程度の処理なら十分実用的だ。

なぜ専用APIより安いのか

いくつかの要因が考えられる。

1. スケールメリット

LLMは汎用モデルとして膨大なトラフィックを捌いている。個別の専用APIよりもスケールメリットが効きやすい。

2. 汎用モデルの進化

かつては「専用モデル > 汎用モデル」が常識だった。翻訳には翻訳専用モデル、OCRにはOCR専用モデル。しかしLLMの進化により、汎用モデルが専用モデルに匹敵する性能を出せるようになった。

3. 戦略的価格設定

GoogleはGeminiのシェア拡大を狙っている。OpenAIやAnthropicとの競争の中で、価格は重要な差別化要因だ。

注意点・使い分け

すべてをGeminiに置き換えればいいわけではない。

専用APIを使うべきケース

  • SLAが必要:ミッションクリティカルな処理
  • 精度保証が必要:金融・医療など
  • 大量処理:レート制限に引っかかる場合
  • 決まった処理の繰り返し:専用APIの方が安定・高速

Geminiが向いているケース

  • プロトタイピング:素早く試したい
  • 多様な入力への対応:フォーマットが統一されていない
  • 柔軟な処理:要件が頻繁に変わる
  • 複合的なタスク:検索→解釈→生成など

まとめ

Geminiの「安さ」は、単にトークン単価が安いだけではない。

  1. 検索+解釈を一体化してWeb Groundingで提供
  2. 翻訳を汎用LLMで代替し、柔軟性も獲得
  3. OCR+構造化をマルチモーダルで一発処理
  4. 動的なコード生成・実行でサーバーレス関数の実装コストを削減

「専用APIを使うのが当たり前」という前提を疑ってみる価値がある。特に新規開発やプロトタイピングでは、Geminiで始めて、必要に応じて専用APIに移行する戦略が有効だろう。

LLMは「賢いテキスト生成器」から「安くて柔軟な万能API」へと進化している。その最前線にいるのがGeminiだ。


宣伝:これらを活用して作ったアプリ

本記事で紹介したGeminiの活用法を、実際にプロダクトに組み込んでいる。

まとめね - レシートを撮るだけでAIが自動で家計簿を作成するアプリ

  • レシート撮影 → AI自動読み取り・分類(ケース3で紹介したマルチモーダル活用)
  • 音声入力:「スタバで500円」と話すだけで記録
  • チャット分析:「先月の食費は?」と聞くだけで回答

月額300円。専用OCR APIを使っていたらこの価格では提供できなかった。


おまけ

この記事自体はGeminiではなくClaudeで5分でまとめました。

コスト度外視したらGeminiより断然Claude派です。


この記事の料金情報は2025年1月時点のものです。最新の料金は各サービスの公式ページをご確認ください。

参考リンク

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?