@FlatkeyAI Team Coffee

AI SaaSの粗利を守る：マルチモデルAPIコスト設計の考え方

Posted at 2026-06-12

はじめに

AI SaaSを作っていると、ある段階で必ずこの問題に当たります。

「ユーザーが増えるほど、APIコストが増えて粗利が下がる」

PoCでは見えなかった問題が、本番稼働後に顕在化します。

本記事では、AI SaaSの開発者・PdMが知っておくべきマルチモデルAPIコスト設計の考え方を整理します。

なぜAI SaaSの粗利が削られるのか

SaaS の収益モデルは：
粗利 = 売上 - 原価（APIコスト + インフラ）

AI SaaSでは、APIコストがユーザー行動に比例して変動します。つまり：

ユーザーが長いプロンプトを送るほどコストが上がる
ヘビーユーザーが定額プランで使い放題だとコストが膨らむ
精度を求めて高性能モデルを全APIに使うと単価が上がる

粗利を守るには、モデルをタスク別に使い分けるアーキテクチャが必要です。

コスト設計の4原則

原則1：全タスクに最高性能モデルを使わない

タスク	推奨モデル tier	理由
長文要約・分類	軽量モデル	精度より速度・コスト優先
コード生成・設計支援	中〜高性能	精度が品質に直結
複雑な推論・分析	最高性能	ここだけ奮発
ユーザー向けチャット	中性能	バランス重視

原則2：入力トークンを削る前処理を入れる

RAGやログを丸ごとLLMに渡すと、入力トークンが爆発します。

# NG: 全ログを渡す
messages = [{"role": "user", "content": raw_log_10000_lines}]

# OK: 前処理でエラー行だけ抽出してから渡す
filtered = extract_errors(raw_log)  # 50行に絞る
messages = [{"role": "user", "content": filtered}]

原則3：プロンプトキャッシュを意識した構造にする

システムプロンプトや固定コンテキストを先頭に固定することで、キャッシュヒット率を上げます。

[キャッシュされやすい先頭部分]

システムプロンプト
製品仕様
コーディング規約

[毎回変わる末尾部分]

ユーザーのメッセージ
最新のコンテキスト

原則4：モデルを1キーで管理して一元把握する

複数のモデルを別々のAPIキーで管理すると、コストの全体像が見えにくくなります。

Flatkey AI のようなAPIゲートウェイを使うと、Claude・GPT・DeepSeekなど全モデルのコストを1つのダッシュボードで確認できます。

実装：タスク別モデルルーターの例

from openai import OpenAI

client = OpenAI(
    api_key="sk-あなたのFlatKeyキー",
    base_url="https://router.flatkey.ai/v1"
)

MODEL_ROUTING = {
    "classify":    "deepseek/deepseek-chat",        # 分類（最低コスト）
    "summarize":   "openai/gpt-4o-mini",            # 要約（軽量）
    "generate":    "anthropic/claude-sonnet-4-5",   # 生成（バランス）
    "analyze":     "anthropic/claude-opus-4-8",     # 深い分析（高精度）
}

def call_llm(task: str, prompt: str) -> str:
    model = MODEL_ROUTING.get(task, "anthropic/claude-sonnet-4-5")
    res = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}]
    )
    return res.choices[0].message.content

# 使い方
result = call_llm("classify", "このレビューはポジティブですか？：最高でした！")

このルーターを入れるだけで、不要な高コストモデル呼び出しを削減できます。

コスト削減の試算例

月間API利用 $200のAI SaaSで、タスク別にモデルを最適化した場合：

タスク	変更前	変更後	削減
分類・ルーティング	Claude Opus $40	DeepSeek $4	−$36
要約処理	GPT-4o $30	GPT-4o-mini $6	−$24
コード生成	Claude Opus $80	Claude Sonnet $30	−$50
深い分析	Claude Opus $50	Claude Opus（Economy）$30	−$20
合計	$200	$70	−$130（65%削減）

※あくまで試算例です。実際の削減率はタスク構成によって変わります。

Flatkey AIでコストを一元管理する

Flatkey AIのダッシュボードでは：

モデル別の呼び出し回数・トークン数・コストを一覧確認
チームメンバーごとにAPIキーを発行してクォータ設定
利用履歴からコスト増加の原因を特定

複数のモデルプロバイダーを使っていても、1画面で全体を把握できます。

まとめ

AI SaaSのコスト設計で大切なのは：

タスク別にモデルを使い分ける
入力トークンを前処理で削る
キャッシュを意識したプロンプト構造にする
全モデルのコストを1か所で把握する

Flatkey AIは1本のAPIキーで全モデルにアクセスでき、コスト管理を一元化できます。

👉 Flatkey AI — https://flatkey.ai

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up