API vs Local LLMの『一択』時代は2026年に終わった — 値上げと値下げが同時進行する 25ドル vs 0.87ドル、30倍格差を読み解く

Posted at 2026-05-04

💸 結論を先に言う

2026年5月時点、Claude Opus 4.7 は $5/$25 per Mtok (input/output)、DeepSeek V4 Pro は $0.435/$0.87 per Mtok (cache hit時はさらに1/10)。同じ AI API という枠で約 30倍の価格差が出ている。

「API vs Local」の議論は、これまで「使うか使わないか」の二択で語られてきた。だが2026年の現実は、

API側で値上げと値下げが同時に発生している
Opus は実質値上げ、DeepSeek は破格、Gemini は無料枠縮小
8GB VRAM の RTX 4060 で全置換は依然として非合理だが、特定タスクの hybrid 移行は経済的に意味を持ち始めた

つまり「API か Local か」という問い自体が古い。2026年は hybrid のコスト最適化時代だ。本稿は実際の per-token 価格と、RTX 4060 8GB の実用域を突き合わせて、どこからが Local 化、どこからが API のままで良いかの線引きを示す。

📊 2026年5月時点の API LLM 価格比較

価格は per Mtok (100万トークン) 単位、2026年5月3日時点の公開価格。為替は$1=¥150で換算。

プロバイダ / モデル	Input ($/Mtok)	Output ($/Mtok)	Output (¥/Mtok)	備考
Anthropic Claude Opus 4.7	$5.00	$25.00	¥3,750	2026/4/16 launch、新トークナイザで日本語+30%増
Anthropic Claude Sonnet 4.6	$3.00	$15.00	¥2,250	中位モデル
OpenAI GPT-5	$4.00	$16.00	¥2,400
Google Gemini 2.5 Pro	$2.00	$10.00	¥1,500	2026/4/1 から有料化、無料枠縮小
DeepSeek V4 Pro	$0.435	$0.87	¥130	2026/5/5まで75%off、cache hitで1/10
Mistral Large 3	$3.00	$9.00	¥1,350	EU 拠点、API レイテンシー要注意

ここから読み取れる事実は3つある。

事実1: 上位帯は実質値上げ。Claude Opus 4.7 はカタログ価格据え置きだが、新トークナイザは日本語/コード/構造化データで最大30-35%多くトークンを消費する。同じ文章を書かせても課金は 1.0〜1.35倍になる。

事実2: 中下位帯は破格。DeepSeek V4 Pro の $0.87 は Opus の 約30分の1。中国系プレーヤーの参入で per-token 単価の底が抜けた。

事実3: 無料化が後退。Gemini Pro が 4/1から有料、Free tier 縮小。「タダで試す」時代は事実上終わった。

注: 上記は公開リスト価格。Volume discount や enterprise契約で実勢価格は変わる。本稿では個人・小規模利用を想定。

🖥 RTX 4060 8GB の経済モデル

私の手元で動くのは RTX 4060 8GB + Ryzen 7 + 32GB RAM。Local LLM 用の物理コストを正直に並べる。

イニシャルコスト (¥):
  RTX 4060 8GB         : 45,000
  既存PC流用 (CPU/RAM/SSD): 0  (新規ならPC本体 ~80,000)
  電源 650W 80+ Gold追加: 8,000
  小計                 : 53,000  (新規組なら 133,000)

ランニングコスト (¥/月):
  電力 (推論時 130W、月50h使用想定): 290 ¥
  電力 (アイドル 25W × 24h × 30日)  : 270 ¥
  小計                              : 560 ¥/月

3年TCO (¥):
  53,000 + 560 × 36 = 73,160
  → 月平均 ~2,032 ¥

3年で計約7万円、月2千円。これが Local の固定費だ。

逆に、これを 何 Mtok 分の API クレジットに換算できるかを計算する。

API モデル	¥2,032/月で買えるOutput Mtok
Opus 4.7	0.54 Mtok (約 540K tokens)
Sonnet 4.6	0.90 Mtok (約 900K tokens)
GPT-5	0.85 Mtok
Gemini 2.5 Pro	1.35 Mtok
DeepSeek V4 Pro	15.6 Mtok (約 15.6M tokens)

DeepSeek を使えば、Local の固定費と同じ予算で 15Mトークン買える。これは個人の AI コーディング月使用量を完全にカバーするレベル (実測で個人開発者の Cursor/Cline 等の月使用量は概ね 5-10Mトークン)。

つまり DeepSeek を選ぶなら Local LLM の経済合理性は崩れる。

⚖️ では「Local が勝つ場面」はどこか

数値だけでは Local が負けるように見える。だが個別タスクで見ると、Local が経済的・技術的に勝つ局面はある。3つに分類する。

ケース A: バッチで大量生成する場合 (Local 圧勝)

例: 1万件のテキストを要約する、社内文書 5,000本をベクトル化する、5万行のログから異常パターンを抽出する。

API で1万件 × 平均 1,000 tokens = 10Mトークン:

Opus: ¥37,500
Sonnet: ¥22,500
DeepSeek: ¥1,300

Local の RTX 4060 で Qwen2.5-7B Q4 を回すと、1分あたり数十件処理できる。電気代 ¥10。

ここで重要なのは DeepSeek でも「やる気の出る金額」までしか下がらないこと。バッチ処理で「あと一桁安く」したい場面では Local が圧倒的に勝つ。

ケース B: レイテンシー・プライバシー要求 (Local 圧勝)

社内秘密の文書を扱う、医療データを処理する、Wi-Fi切れる山中で AI コーディングしたい。これらは API 側ではコスト関係なく成立しない。

注: API ベンダーは「データを学習に使わない」と契約上保証するが、それは「漏れない」とは違う。漏らさない最良の方法は外に送らないこと。

ケース C: 学習・実験 (Local 圧勝)

個人で「LoRA を試したい」「カスタム埋め込みを作りたい」「RAG をフルチェーンで自前構築したい」と思ったら、API では基本ムリ。FT API は提供されているが、自分で Loss を見ながらいじる学習体験は Local のみ。

ここまでが Local が勝つ領域。逆に言えば、これ以外の領域 (1回限りの相談、会議の議事録要約、複雑な推論タスク) では、2026年現在は API の方が経済合理性が高い。

🧪 私の RTX 4060 8GB で実測した hybrid 運用

実際に私が運用しているハイブリッドの構成を晒す。

┌─────────────────────────┐
│ 日常タスク (Local)       │
│  - コード補完            │ → Qwen2.5-7B Q4 / llama.cpp / GPU
│  - 短い相談              │ → Qwen2.5-7B Q4
│  - JSON抽出              │ → Qwen2.5-7B Q4
│  - 日次ログ要約          │ → llama.cpp バッチ
└─────────────────────────┘
               ↓ (難しいタスク)
┌─────────────────────────┐
│ 特殊タスク (API)         │
│  - 長文設計議論          │ → Claude Sonnet 4.6
│  - コード設計レビュー    │ → Claude Sonnet 4.6
│  - 数式・物理証明        │ → Claude Opus 4.7 (限定)
│  - バッチ処理            │ → DeepSeek V4 Pro
└─────────────────────────┘

想定コスト試算 (実測ではなく、私の使用パターンから推定した数値):

Local 推論時間: 約 60h/月 (主にコーディング補完を想定)
電気代: 約 ¥800/月 (130W × 60h × ¥30/kWh の概算)
API 使用想定: Sonnet 0.4Mtok ($6 ≈ ¥900), Opus 0.05Mtok ($1.25 ≈ ¥190), DeepSeek 8Mtok ($7 ≈ ¥1,050)
合計: ¥2,940/月 (Local電気代 + API合計、いずれも想定)

これを「API only」(全部 Sonnet) で換算すると、月使用量 ~10Mtok 想定で ¥22,500。**hybrid 設計でのコスト圧縮率は理論上約87%**になる計算。

⚠️ 注: 上記は実際の月次ログから引いた数字ではなく、私のワークロード想定からの試算値。実測月次ログは取っていないため、参考値として扱ってほしい。コーディング比率が高い前提なので、長文ドラフト中心の使い方なら Sonnet/Opus 比率が上がってもっと API 寄りになる。

🎯 hybrid 設計の3原則 (実用ルール)

実際に hybrid を機能させるには、ルールを言語化しておく必要がある。私は以下の3つで運用している。

原則1: タスクを4象限で見る

	短い	長い
簡単	Local (Qwen2.5-7B)	DeepSeek V4 Pro
難しい	Sonnet 4.6	Opus 4.7

「難しい」かどうかの判定は、Local モデルに最初に投げて、出力の質が低ければエスカレーションする。これを手動でやるより、ルーター LLM (軽量 7B モデル) に判断させる方が早い。私は llama.cpp の独自スクリプトでやっている。

原則2: キャッシュとストリーミングをフル活用

DeepSeek V4 Pro は cache hit で価格が 1/10 になる。同じ system prompt を繰り返し送るバッチ処理ではこれが大きい。

Local 側は --cache-type-k q4_0 で KV cache を量子化、メモリ余裕を稼ぐ。これも前に書いたが (KV キャッシュを Q4 に落としたら 32K コンテキストが入った)、cache 設計が hybrid の経済合理性を左右する。

原則3: 失敗したらエスカレーション、成功したら降格

Local で出力品質が低かったら API に投げる。これは当たり前。だが逆も重要で、**API で何度か成功した patternは Local モデルの軽量プロンプトに「降格」**して、次回以降は無料化する。

例: 「JSONスキーマに沿って出力する」タスクは、最初は Sonnet で書かせ、template化したら以降は Qwen2.5-7B + grammar制約で十分回るようになる。**API は「学習装置」、Local は「実行装置」**として使い分ける。

🚪 8GB の物理的天井と hybrid の正当化

ここで本ブログのアイデンティティに戻る。RTX 4060 8GB の物理的天井は明確で、

Qwen2.5-7B Q4: 余裕 (4-5GB)
Qwen2.5-14B Q4: ギリギリ (~7GB、長コンテキストで OOM)
32B以上: KV cache offload や制約付きでないと動かない

「全部 Local」は8GBでは現実的じゃない。これを認めた上で、

Local で動く 7B/14B 級は Local で
それ以上の品質が必要なら API へ

という線引きが、hybrid の合理性を支える。「Local LLM は経済的に逆転した」と煽るブログ記事は多いが、8GB制約を無視した議論は信じない方がいい。本記事の数字は、その制約を持っている個人開発者の現実から書いている。

🔮 2026後半〜2027の予想

ここからは個人考察 (Lv4: 公開データからの外挿)。

1. DeepSeek 級の超低価格 API は当面続く: 中国系・ヨーロッパ系の OSS ベース API (Qwen Cloud, Mistral, Pollux 等) は per-token 価格を下げ続ける。Opus は per-token 競争に乗らない(品質で売る)。価格の二極化が進む。

2. ハイパースケーラの統合圧力: 「自社で API も自社チップも持つ」AWS Bedrock + Trainium、Google Cloud + TPU、Azure + Maia の三社は、それぞれ自社チップで動く API を内部値下げする。Open API市場と内部 API市場が分離する可能性が高い。

3. ローカル側は16GB が新標準に: NVIDIA の RTX 50シリーズ Super (16GB) や AMD RX 9070 XT (16GB) が普及帯に降りてくると、Local LLM のスイートスポットは 14B → 30B クラスに上がる。8GB は来年に「最低限ライン下」になる可能性がある。

4. hybrid 運用が新標準: 個人開発者の AI ツールチェーンは「全部 API」「全部 Local」のどちらでもなく、ルーティング層を持つ hybridに統一されていく。Cursor, Cline, Claude Code, ContinueDev のような製品は既にその方向。

📌 まとめ — 2026年の AI 開発者の合理的選択

API vs Local の戦いは、API側の内部分裂で終わった。Opus 4.7 値上げと DeepSeek $0.87 という30倍格差は、もはや「同じ製品カテゴリ」とは言えない別物だ。

個人開発者の現実的な戦略:

コア作業: Local (Qwen 7B/14B) + 高頻度キャッシュ
重い思考: Sonnet/Opus に絞り込んでエスカレーション
大量バッチ: DeepSeek (cache hit活用)
「全部 API」「全部 Local」はどちらも経済的に不合理

そして 8GB の物理天井がある以上、hybrid 設計は 8GB ブロガーにとって必須スキルになる。これからの「個人 AI スタック」は、API のリストと Local モデルのリストの 両方を持っている人が勝つ。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up