定額の裏側(1) AIサブスクは格安なのか? — 価格とクォータの二重構造
連載「定額の裏側 — APIとサブスクの価格差から読むフロンティアモデルの経済構造」第1回。
定額サブスクとトークンの関係はどうなってるんだっけ?
まず私の手元の実測から始めたい。Claude Code の /usage と /cost が表示した、ある1セッションの解剖図である。
Total cost: $2.16
Total duration (API): 3m 28s
Total duration (wall): 4h 16m 49s
Total code changes: 35 lines added, 0 lines removed
claude-fable-5: 3.3k input, 7.6k output,
648.6k cache read, 54.8k cache write ($2.16)
Current session: 36% used(5時間ウィンドウ)
Current week: 70% used(週次上限・月曜リセット)
数字がいくつかのことを白状している。
第一に、これは金曜日の表示である。週次クォータの7割が、週の半ばすぎで消えている。第二に、壁時計で4時間17分のセッションのうち、モデルが実際に推論していたのは3分28秒。残りは私が別の作業をし、エージェントが断続的に文脈を回していた時間だ。第三に、成果はコード35行。1行あたり約6セントの推論が走った計算になる。
そしてこの $2.16 は私が払った金額ではない。API 価格に換算した場合の参考値である。私は月額定額プランの中でこれを使っている。
ここに本連載の出発点となる構造がある。定額プランの中では、この消費は柵(クォータ)の内側で割安に許される。同じ消費を API で組み込めば、1セッションごとに $2.16 が容赦なく課金される。つまり現在の価格体系はこう読める。
「人間がフロントに立つなら、柵の内側で割引価格で使わせてあげる。柵を超えるペースで使うなら待て。機械に組み込むなら、従量で定価を払え」
価格の壁と、クォータの柵。この二重の構造がなぜ存在するのか。本連載は6回かけてこれを掘る。
価格表の確認(2026年6月時点)
一次情報は必ず公式の価格ページで確認してほしい。本連載の数値はすべて執筆時点のものだ。
サブスクリプション(個人)
| プラン | 月額 | 概要 |
|---|---|---|
| Pro | $20 | 標準。Claude Code 利用可 |
| Max 5x | $100 | Pro の約5倍の利用枠 |
| Max 20x | $200 | Pro の約20倍の利用枠 |
いずれも「使い放題」ではなく、5時間ローリングウィンドウと週次の利用上限(クォータ)が付く。
API(100万トークンあたり、標準レート)
| モデル | 入力 | 出力 | キャッシュ読み |
|---|---|---|---|
| Fable 5 | $10.00 | $50.00 | $1.00 |
| Opus 4.8 | $5.00 | $25.00 | $0.50 |
| Sonnet 4.6 | $3.00 | $15.00 | $0.30 |
| Haiku 4.5 | $1.00 | $5.00 | $0.10 |
修飾子として、バッチ処理で50%引き、プロンプトキャッシュは読み出しが入力の約1/10(書き込みは約1.25倍)。なお最上位の Fable 5 は執筆時点でサブスクプラン内の提供条件が移行期にあり、期間限定提供ののち従量クレジット制への移行が告知されている(要確認)。最上位モデルから順に、定額の柵の外へ押し出されていく——この動き自体が本連載の主題の一部である。
1セッションの原価構造
冒頭の解剖図に戻る。$2.16 の内訳を API レートで分解すると:
| 項目 | トークン | 単価($/MTok) | 金額 |
|---|---|---|---|
| 新規入力 | 3.3k | 10 | $0.03 |
| 出力 | 7.6k | 50 | $0.38 |
| キャッシュ読み | 648.6k | 1 | $0.65 |
| キャッシュ書き | 54.8k | 12.5 | $0.69 |
注目すべきは、**コストの大半が「新しく考えた量」ではなく「文脈を持ち運んだ量」**だという点だ。新規入力はわずか3.3kトークン。一方、キャッシュの読み書きは70万トークン超で、コストの6割以上を占める。私の直近24時間の利用統計では、消費の75%が15万トークン超のコンテキストで発生し、52%が4セッション以上の並列稼働中、51%が8時間以上連続のセッションからだった。
これがエージェント的利用の原価構造である。人間のチャットは「短い文脈を速く読む」消費だが、エージェントは「巨大な文脈を保持したまま、人間が見ていない時間も回り続ける」消費だ。壁時計4時間に対して API 時間3分という比率が、それを端的に示している。この構造の意味は第2回で本格的に扱う。
$200 は何トークンか — 補助金の実測方法
では定額プランの「割引率」はどれほどか。$200(Max 20x)を API 購買力に換算してみる。
- 全額を Fable 5 の新規入力に使えば 20 MTok
- 全額を出力に使えば 4 MTok
- 冒頭の私のセッション(キャッシュ支配型の典型的なエージェント利用)の形なら 約92セッション分——1日3セッション相当
ただし、**定額プラン=「$200分のトークン」ではない。**定額が売っているのは「クォータ」だ。あなたが消費できる上限は、ドルではなくクォータの高さで決まる。
だから補助金の倍率は、次の手順でしか実測できない。
-
/usageと/costで、週次上限に到達するまでの累積 API 換算額を記録する - その額 × 4.3 が、あなたのプランの月間クォータの API 換算価値
- 補助金倍率 = クォータの API 換算価値 ÷ 月額料金
倍率が1を超えていれば、あなたは補助金を受けている。私の体感では、エージェント的に使い込むユーザーの倍率は明確に1を超える。ただし無限ではない——柵があるからだ。
パズルの確定 — 価格の壁とクォータの柵
ここで第一の凡庸な説明を検討しておく。「B2B は支払い意思額が高いから API が高い。単なる価格差別では?」
部分的には正しい。だが価格差別説は柵を説明できない。価格差別とは、払う意思のある顧客から多く取る技術である。ところがクォータは、追加で払う意思のある定額顧客の消費を断る仕組みだ。「もっと使いたい、金は払う」という顧客に「待て」と言う価格差別は存在しない。柵は価格差別の道具ではなく、別の何かを強制する装置である。
その「何か」とは、人間のペースだ。5時間ウィンドウと週次上限は、人間が画面の前で読み書きする速度ならまず当たらない高さに設定されている。当たるのは、私のように複数セッションを並列で8時間回す利用——つまりエージェント的な利用だけである。柵の高さそのものが、「この割引は人間のペースで使う者のためのものだ」という宣言なのだ。
こうしてパズルが確定する。価格体系は二重の構造を持つ:
- 価格の壁:API は従量定価。組み込み利用に割引はない
- クォータの柵:定額は割引だが、人間ペースを超える消費を構造的に遮断する
なぜこの二重構造なのか。少なくとも3つの仮説が立つ。
3つの仮説 — 本連載の見取り図
仮説1:コスト構造説(第2回)。 定額制の保険数理は「消費量分布に天井がある」ことを前提とする。人間の認知には生理的天井があるが、エージェントにはない。クォータの柵とは、天井のない消費を保険数理の内側に押し戻す人工の胃袋である。
仮説2:認知吸収説(第3回)。 人間の注意・習慣・文脈の堆積そのものが商品である。フロントに立つ利用は moat を作るから補助金を出す価値があるが、API の向こうのコードは習慣を持たない。補助金は認知が堆積する側にだけ出る。
仮説3:レント回収説(第4回)。 エージェント抽象化が進めばモデルの指名は消える。named demand が残っているうちに API から取れるだけ取る——時限のレント回収。そして「そんなに高いなら使えない」という需要側の壁との攻防。
第5回では危険性ナラティブと限定公開の経済学を、第6回では「価値と組織の結合」という制度問題を扱う。3つの仮説は排他的ではない。同じ二重構造を、コスト・収益・戦略の3面から見たものだ——というのが連載全体の見立てである。
エージェントは実質、モデル従量課金か Local LLM の2択
定額プランの上にエージェント基盤を組むことは、リスクがあるという以前に、そもそもできない。冒頭の /usage が示す通り、金曜日の時点で週次クォータの7割が消えている。常時稼働のエージェントを回せば、クォータは週の前半で尽きる。定額プランは最初から、そういう使い方を想定した枠ではないのだ。
したがって整理はこうなる。定額の柵の内側に残れるのは、人間が主導する利用までだ。
-
柵の内側(人間主導の利用)。 定額枠は「人間が主導する対話的利用+断続的な小規模自動化」までの範囲と割り切る。具体的には:セッションのキュー化(並列を絞る——全セッションは同じ柵を共有している)、
/compactと/clearによる文脈の節約(15万トークン超の文脈はキャッシュ済みでも高くつく)、週次クォータの残量を見ながらの作業計画。皮肉なことに、/usage画面自身がこれらを推奨してくる
そして、常時稼働・並列・長時間ループを前提とするエージェント基盤には、実質2択しか残らない。
- モデル従量課金(API)。 柵の外の世界に引っ越す。その瞬間、冒頭の $2.16/セッションが実費になる。この引っ越しの経済計算——いつ、どのワークロードを移すか——のために、本稿の実測手順がある
- Local LLM。 クォータにも API 価格にも縛られない、自分の手元の推論。品質要求が許すワークロードから退避させる。柵の高さ変更(過去に何度もあった)に対する唯一の構造的ヘッジであり、第6回で論じる「漏出の受益者」側に立つ選択でもある
そして全ての前提として:測れ。 自分の消費の API 換算額、文脈長の分布、並列度、クォータ到達ペース。これらを把握しないまま、定額プランの上に日々のワークフローを依存させるのは危うい。
次回は仮説1。クォータの柵の正体——「人間の読む速度が天井である」というコスト構造の話に入る。