はじめに
AI SaaSを作っていると、ある段階で必ずこの問題に当たります。
「ユーザーが増えるほど、APIコストが増えて粗利が下がる」
PoCでは見えなかった問題が、本番稼働後に顕在化します。
本記事では、AI SaaSの開発者・PdMが知っておくべきマルチモデルAPIコスト設計の考え方を整理します。
なぜAI SaaSの粗利が削られるのか
SaaS の収益モデルは:
粗利 = 売上 - 原価(APIコスト + インフラ)
AI SaaSでは、APIコストがユーザー行動に比例して変動します。つまり:
- ユーザーが長いプロンプトを送るほどコストが上がる
- ヘビーユーザーが定額プランで使い放題だとコストが膨らむ
- 精度を求めて高性能モデルを全APIに使うと単価が上がる
粗利を守るには、モデルをタスク別に使い分けるアーキテクチャが必要です。
コスト設計の4原則
原則1:全タスクに最高性能モデルを使わない
| タスク | 推奨モデル tier | 理由 |
|---|---|---|
| 長文要約・分類 | 軽量モデル | 精度より速度・コスト優先 |
| コード生成・設計支援 | 中〜高性能 | 精度が品質に直結 |
| 複雑な推論・分析 | 最高性能 | ここだけ奮発 |
| ユーザー向けチャット | 中性能 | バランス重視 |
原則2:入力トークンを削る前処理を入れる
RAGやログを丸ごとLLMに渡すと、入力トークンが爆発します。
# NG: 全ログを渡す
messages = [{"role": "user", "content": raw_log_10000_lines}]
# OK: 前処理でエラー行だけ抽出してから渡す
filtered = extract_errors(raw_log) # 50行に絞る
messages = [{"role": "user", "content": filtered}]
原則3:プロンプトキャッシュを意識した構造にする
システムプロンプトや固定コンテキストを先頭に固定することで、キャッシュヒット率を上げます。
[キャッシュされやすい先頭部分]
システムプロンプト
製品仕様
コーディング規約
[毎回変わる末尾部分]
ユーザーのメッセージ
最新のコンテキスト
原則4:モデルを1キーで管理して一元把握する
複数のモデルを別々のAPIキーで管理すると、コストの全体像が見えにくくなります。
Flatkey AI のようなAPIゲートウェイを使うと、Claude・GPT・DeepSeekなど全モデルのコストを1つのダッシュボードで確認できます。
実装:タスク別モデルルーターの例
from openai import OpenAI
client = OpenAI(
api_key="sk-あなたのFlatKeyキー",
base_url="https://router.flatkey.ai/v1"
)
MODEL_ROUTING = {
"classify": "deepseek/deepseek-chat", # 分類(最低コスト)
"summarize": "openai/gpt-4o-mini", # 要約(軽量)
"generate": "anthropic/claude-sonnet-4-5", # 生成(バランス)
"analyze": "anthropic/claude-opus-4-8", # 深い分析(高精度)
}
def call_llm(task: str, prompt: str) -> str:
model = MODEL_ROUTING.get(task, "anthropic/claude-sonnet-4-5")
res = client.chat.completions.create(
model=model,
messages=[{"role": "user", "content": prompt}]
)
return res.choices[0].message.content
# 使い方
result = call_llm("classify", "このレビューはポジティブですか?:最高でした!")
このルーターを入れるだけで、不要な高コストモデル呼び出しを削減できます。
コスト削減の試算例
月間API利用 $200のAI SaaSで、タスク別にモデルを最適化した場合:
| タスク | 変更前 | 変更後 | 削減 |
|---|---|---|---|
| 分類・ルーティング | Claude Opus $40 | DeepSeek $4 | −$36 |
| 要約処理 | GPT-4o $30 | GPT-4o-mini $6 | −$24 |
| コード生成 | Claude Opus $80 | Claude Sonnet $30 | −$50 |
| 深い分析 | Claude Opus $50 | Claude Opus(Economy)$30 | −$20 |
| 合計 | $200 | $70 | −$130(65%削減) |
※あくまで試算例です。実際の削減率はタスク構成によって変わります。
Flatkey AIでコストを一元管理する
Flatkey AIのダッシュボードでは:
- モデル別の呼び出し回数・トークン数・コストを一覧確認
- チームメンバーごとにAPIキーを発行してクォータ設定
- 利用履歴からコスト増加の原因を特定
複数のモデルプロバイダーを使っていても、1画面で全体を把握できます。
まとめ
AI SaaSのコスト設計で大切なのは:
- タスク別にモデルを使い分ける
- 入力トークンを前処理で削る
- キャッシュを意識したプロンプト構造にする
- 全モデルのコストを1か所で把握する
Flatkey AIは1本のAPIキーで全モデルにアクセスでき、コスト管理を一元化できます。