はじめに
前回の記事では、娘向けの学習支援アプリを作り始めたところまでを書きました。
今回は、実際に使い始めてから気になった Gemini API のコスト の確認です。
個人開発、しかも家庭内で使うツールなので、なるべくお金はかけたくありません。Vercel、Supabase、GitHub Actions は無料枠で進めています。
ただ、AI の評価部分だけは API 利用料がかかります。
そして、ひらがな評価を何回か動かしたあとに Google Cloud の請求を確認しました。
実測では2回で15円だった
Google Cloud の請求データを見ると、ひらがな評価 2回で約15円 かかっていました。
つまり、1回あたり約7.5円です。
| 内容 | 値 |
|---|---|
| 対象 | ひらがな・カタカナ評価 |
| 実行回数 | 2回 |
| 請求額 | 約15円 |
| 1回あたり | 約7.5円 |
まあそのくらいしますよね、。
ただ、毎日使う前提で見ると少し印象が変わります。
月単位で見ると少し気になる
1回7.5円として、30日使った場合をざっくり計算します。
| 1日あたりの利用回数 | 月間コスト |
|---|---|
| 1回 | 約225円 |
| 3回 | 約675円 |
| 5回 | 約1,125円 |
| 10回 | 約2,250円 |
現時点で動いているのは、主にひらがな・カタカナ評価です。
ただ、このアプリでは英会話とピアノも評価したいと思っています。3科目を毎日使うようになると、月に数百円から千円台くらいは普通に見えてきます。
もちろん、月数百円なら高くないと言えば高くないです。
でも、家庭内ツールとして継続的に使うなら、毎回のコスト感はちゃんと把握しておきたいと思いました。
使っていたモデル
この時点で、ひらがな評価に使っていたモデルは gemini-3.1-pro-preview です。
公式料金を見ると、2026年6月29日時点で gemini-3.1-pro-preview はプロンプトが20万トークン以下の場合、以下の単価です。
| 区分 | 料金 |
|---|---|
| 入力 | $2.00 / 100万 tokens |
| 出力 | $12.00 / 100万 tokens |
出力料金には、思考トークンも含まれます。
ここを最初に見落としていました。
単純計算だと1回1円台になる
まずは、普通に入力と出力だけで計算してみます。
1回のひらがな評価では、だいたい以下のようなトークンを使っている想定です。
| 内容 | 推定トークン数 |
|---|---|
| 評価プロンプト | 約1,900 tokens |
| 入力画像 | 約560 tokens |
| 出力 JSON | 約300 tokens |
この場合、入力は約2,460 tokens、出力は約300 tokens です。
入力 2,460 tokens × $2.00 / 1,000,000 = $0.00492
出力 300 tokens × $12.00 / 1,000,000 = $0.00360
合計 = $0.00852
1ドル155円で計算すると、約1.3円です。
でも、実測は約7.5円でした。
単純計算と実測が、けっこうズレています。
原因はたぶん思考トークン
この差を見て、最初は画像トークンの見積もりが違うのかなと思いました。
もちろん、それも多少はありそうです。スマホで撮った写真なので、画像サイズや内部的な処理によってトークン数が変わる可能性はあります。
ただ、いちばん大きそうなのは 思考トークン でした。
gemini-3.1-pro-preview の出力料金は、公式料金ページでも「思考トークンを含む」とされています。
つまり、画面に返ってくる JSON が300 tokens 程度だったとしても、モデルが内部で考えるために使ったトークンがあれば、それも出力側として課金されます。
ひらがな評価は、ただ文字を読むだけではありません。
- お手本文字と手書き文字を区別する
- 文字の形を比べる
- とめ・はね・はらいを見る
- 5〜6歳の書き方として自然な範囲か判断する
- 子ども向けのフィードバックに変換する
こう考えると、内部でそれなりに推論していても不思議ではありません。
思考トークン込みで逆算する
仮に、思考トークンを3,000 tokens として計算してみます。
出力は、通常の JSON 300 tokens に思考トークン 3,000 tokens を足して、約3,300 tokens とします。
入力 2,460 tokens × $2.00 / 1,000,000 = $0.00492
出力 3,300 tokens × $12.00 / 1,000,000 = $0.03960
合計 = $0.04452
1ドル155円で計算すると、約6.9円です。
実測の約7.5円にかなり近くなりました。
| ケース | 1回あたり |
|---|---|
| 入出力だけで単純計算 | 約1.3円 |
| 思考トークン込みで推定 | 約6.9円 |
| 実測 | 約7.5円 |
もちろん、思考トークン数は実測できているわけではありません。
ただ、実測値との差を考えると、今回のコスト増は思考トークンの影響がかなり大きそうだと見ています。
ここから何を削るか
コストを下げる方法はいくつかあります。
| 対策 | 期待できること | 気になること |
|---|---|---|
| モデルを変える | 単価を下げられる | 評価精度が落ちる可能性がある |
| 思考トークンを制限する | 出力側のコストを抑えられる | 判断が雑になる可能性がある |
| 画像をリサイズする | 入力トークンを抑えられる | 小さくしすぎると文字が読みにくい |
| プロンプトを短くする | 入力トークンを少し減らせる | 評価基準がぶれる可能性がある |
今回の用途では、単に安くなればよいわけではありません。
娘に返す評価なので、精度が落ちすぎると意味がありません。特に、ひらがな・カタカナは「読めるか」だけでなく、「どこを直すとよいか」を見たいです。
なので、やるならこの順番かなと思っています。
- 画像サイズを調整して、評価が変わらない範囲を探す
- プロンプトを短くしても評価が安定するか見る
-
thinkingBudgetを設定して、コストと精度の差を見る - Flash 系のモデルに変えて、同じ画像で比較する
前に調べた限りでは、ひらがな・カタカナの画像認識では Flash 系もかなり強そうでした。
なので、単純に Pro を使い続けるのではなく、実データで比べる必要がありそうです。
まとめ
今回わかったのは、AI API のコストは、画面に返ってくる文字数だけでは見積もれない ということです。
特に Thinking 系のモデルでは、内部の思考トークンが出力料金に含まれます。
今回のひらがな評価では、単純計算だと約1.3円でしたが、実測では約7.5円でした。思考トークンを含めて考えると、この差はかなり説明できそうです。
家庭内ツールでも、毎日使うものになると小さな単価差が効いてきます。
次回は、画像サイズ、プロンプト、thinkingBudget、モデル変更を実際に試して、どこまでコストを下げられるかを見ていきます。
