1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

はじめに

AI SaaSを作っていると、ある段階で必ずこの問題に当たります。

「ユーザーが増えるほど、APIコストが増えて粗利が下がる」

PoCでは見えなかった問題が、本番稼働後に顕在化します。

本記事では、AI SaaSの開発者・PdMが知っておくべきマルチモデルAPIコスト設計の考え方を整理します。


なぜAI SaaSの粗利が削られるのか

SaaS の収益モデルは:
粗利 = 売上 - 原価(APIコスト + インフラ)

AI SaaSでは、APIコストがユーザー行動に比例して変動します。つまり:

  • ユーザーが長いプロンプトを送るほどコストが上がる
  • ヘビーユーザーが定額プランで使い放題だとコストが膨らむ
  • 精度を求めて高性能モデルを全APIに使うと単価が上がる

粗利を守るには、モデルをタスク別に使い分けるアーキテクチャが必要です。


コスト設計の4原則

原則1:全タスクに最高性能モデルを使わない

タスク 推奨モデル tier 理由
長文要約・分類 軽量モデル 精度より速度・コスト優先
コード生成・設計支援 中〜高性能 精度が品質に直結
複雑な推論・分析 最高性能 ここだけ奮発
ユーザー向けチャット 中性能 バランス重視

原則2:入力トークンを削る前処理を入れる

RAGやログを丸ごとLLMに渡すと、入力トークンが爆発します。

# NG: 全ログを渡す
messages = [{"role": "user", "content": raw_log_10000_lines}]

# OK: 前処理でエラー行だけ抽出してから渡す
filtered = extract_errors(raw_log)  # 50行に絞る
messages = [{"role": "user", "content": filtered}]

原則3:プロンプトキャッシュを意識した構造にする

システムプロンプトや固定コンテキストを先頭に固定することで、キャッシュヒット率を上げます。

[キャッシュされやすい先頭部分]

システムプロンプト
製品仕様
コーディング規約

[毎回変わる末尾部分]

ユーザーのメッセージ
最新のコンテキスト

原則4:モデルを1キーで管理して一元把握する

複数のモデルを別々のAPIキーで管理すると、コストの全体像が見えにくくなります。

Flatkey AI のようなAPIゲートウェイを使うと、Claude・GPT・DeepSeekなど全モデルのコストを1つのダッシュボードで確認できます。


実装:タスク別モデルルーターの例

from openai import OpenAI

client = OpenAI(
    api_key="sk-あなたのFlatKeyキー",
    base_url="https://router.flatkey.ai/v1"
)

MODEL_ROUTING = {
    "classify":    "deepseek/deepseek-chat",        # 分類(最低コスト)
    "summarize":   "openai/gpt-4o-mini",            # 要約(軽量)
    "generate":    "anthropic/claude-sonnet-4-5",   # 生成(バランス)
    "analyze":     "anthropic/claude-opus-4-8",     # 深い分析(高精度)
}

def call_llm(task: str, prompt: str) -> str:
    model = MODEL_ROUTING.get(task, "anthropic/claude-sonnet-4-5")
    res = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}]
    )
    return res.choices[0].message.content

# 使い方
result = call_llm("classify", "このレビューはポジティブですか?:最高でした!")

このルーターを入れるだけで、不要な高コストモデル呼び出しを削減できます。


コスト削減の試算例

月間API利用 $200のAI SaaSで、タスク別にモデルを最適化した場合:

タスク 変更前 変更後 削減
分類・ルーティング Claude Opus $40 DeepSeek $4 −$36
要約処理 GPT-4o $30 GPT-4o-mini $6 −$24
コード生成 Claude Opus $80 Claude Sonnet $30 −$50
深い分析 Claude Opus $50 Claude Opus(Economy)$30 −$20
合計 $200 $70 −$130(65%削減)

※あくまで試算例です。実際の削減率はタスク構成によって変わります。


Flatkey AIでコストを一元管理する

Flatkey AIのダッシュボードでは:

  • モデル別の呼び出し回数・トークン数・コストを一覧確認
  • チームメンバーごとにAPIキーを発行してクォータ設定
  • 利用履歴からコスト増加の原因を特定

複数のモデルプロバイダーを使っていても、1画面で全体を把握できます。


まとめ

AI SaaSのコスト設計で大切なのは:

  1. タスク別にモデルを使い分ける
  2. 入力トークンを前処理で削る
  3. キャッシュを意識したプロンプト構造にする
  4. 全モデルのコストを1か所で把握する

Flatkey AIは1本のAPIキーで全モデルにアクセスでき、コスト管理を一元化できます。

👉 Flatkey AI — https://flatkey.ai

1
1
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?