💸 結論を先に言う
2026年5月時点、Claude Opus 4.7 は $5/$25 per Mtok (input/output)、DeepSeek V4 Pro は $0.435/$0.87 per Mtok (cache hit時はさらに1/10)。同じ AI API という枠で約 30倍の価格差が出ている。
「API vs Local」の議論は、これまで「使うか使わないか」の二択で語られてきた。だが2026年の現実は、
- API側で値上げと値下げが同時に発生している
- Opus は実質値上げ、DeepSeek は破格、Gemini は無料枠縮小
- 8GB VRAM の RTX 4060 で全置換は依然として非合理だが、特定タスクの hybrid 移行は経済的に意味を持ち始めた
つまり「API か Local か」という問い自体が古い。2026年は hybrid のコスト最適化時代だ。本稿は実際の per-token 価格と、RTX 4060 8GB の実用域を突き合わせて、どこからが Local 化、どこからが API のままで良いかの線引きを示す。
📊 2026年5月時点の API LLM 価格比較
価格は per Mtok (100万トークン) 単位、2026年5月3日時点の公開価格。為替は$1=¥150で換算。
| プロバイダ / モデル | Input ($/Mtok) | Output ($/Mtok) | Output (¥/Mtok) | 備考 |
|---|---|---|---|---|
| Anthropic Claude Opus 4.7 | $5.00 | $25.00 | ¥3,750 | 2026/4/16 launch、新トークナイザで日本語+30%増 |
| Anthropic Claude Sonnet 4.6 | $3.00 | $15.00 | ¥2,250 | 中位モデル |
| OpenAI GPT-5 | $4.00 | $16.00 | ¥2,400 | |
| Google Gemini 2.5 Pro | $2.00 | $10.00 | ¥1,500 | 2026/4/1 から有料化、無料枠縮小 |
| DeepSeek V4 Pro | $0.435 | $0.87 | ¥130 | 2026/5/5まで75%off、cache hitで1/10 |
| Mistral Large 3 | $3.00 | $9.00 | ¥1,350 | EU 拠点、API レイテンシー要注意 |
ここから読み取れる事実は3つある。
事実1: 上位帯は実質値上げ。Claude Opus 4.7 はカタログ価格据え置きだが、新トークナイザは日本語/コード/構造化データで最大30-35%多くトークンを消費する。同じ文章を書かせても課金は 1.0〜1.35倍になる。
事実2: 中下位帯は破格。DeepSeek V4 Pro の $0.87 は Opus の 約30分の1。中国系プレーヤーの参入で per-token 単価の底が抜けた。
事実3: 無料化が後退。Gemini Pro が 4/1から有料、Free tier 縮小。「タダで試す」時代は事実上終わった。
注: 上記は公開リスト価格。Volume discount や enterprise契約で実勢価格は変わる。本稿では個人・小規模利用を想定。
🖥 RTX 4060 8GB の経済モデル
私の手元で動くのは RTX 4060 8GB + Ryzen 7 + 32GB RAM。Local LLM 用の物理コストを正直に並べる。
イニシャルコスト (¥):
RTX 4060 8GB : 45,000
既存PC流用 (CPU/RAM/SSD): 0 (新規ならPC本体 ~80,000)
電源 650W 80+ Gold追加: 8,000
小計 : 53,000 (新規組なら 133,000)
ランニングコスト (¥/月):
電力 (推論時 130W、月50h使用想定): 290 ¥
電力 (アイドル 25W × 24h × 30日) : 270 ¥
小計 : 560 ¥/月
3年TCO (¥):
53,000 + 560 × 36 = 73,160
→ 月平均 ~2,032 ¥
3年で計約7万円、月2千円。これが Local の固定費だ。
逆に、これを 何 Mtok 分の API クレジットに換算できるかを計算する。
| API モデル | ¥2,032/月で買えるOutput Mtok |
|---|---|
| Opus 4.7 | 0.54 Mtok (約 540K tokens) |
| Sonnet 4.6 | 0.90 Mtok (約 900K tokens) |
| GPT-5 | 0.85 Mtok |
| Gemini 2.5 Pro | 1.35 Mtok |
| DeepSeek V4 Pro | 15.6 Mtok (約 15.6M tokens) |
DeepSeek を使えば、Local の固定費と同じ予算で 15Mトークン買える。これは個人の AI コーディング月使用量を完全にカバーするレベル (実測で個人開発者の Cursor/Cline 等の月使用量は概ね 5-10Mトークン)。
つまり DeepSeek を選ぶなら Local LLM の経済合理性は崩れる。
⚖️ では「Local が勝つ場面」はどこか
数値だけでは Local が負けるように見える。だが個別タスクで見ると、Local が経済的・技術的に勝つ局面はある。3つに分類する。
ケース A: バッチで大量生成する場合 (Local 圧勝)
例: 1万件のテキストを要約する、社内文書 5,000本 をベクトル化する、5万行のログから異常パターンを抽出する。
API で1万件 × 平均 1,000 tokens = 10Mトークン:
- Opus: ¥37,500
- Sonnet: ¥22,500
- DeepSeek: ¥1,300
Local の RTX 4060 で Qwen2.5-7B Q4 を回すと、1分あたり数十件処理できる。電気代 ¥10。
ここで重要なのは DeepSeek でも「やる気の出る金額」までしか下がらないこと。バッチ処理で「あと一桁安く」したい場面では Local が圧倒的に勝つ。
ケース B: レイテンシー・プライバシー要求 (Local 圧勝)
社内秘密の文書を扱う、医療データを処理する、Wi-Fi切れる山中で AI コーディングしたい。これらは API 側ではコスト関係なく成立しない。
注: API ベンダーは「データを学習に使わない」と契約上保証するが、それは「漏れない」とは違う。漏らさない最良の方法は外に送らないこと。
ケース C: 学習・実験 (Local 圧勝)
個人で「LoRA を試したい」「カスタム埋め込みを作りたい」「RAG をフルチェーンで自前構築したい」と思ったら、API では基本ムリ。FT API は提供されているが、自分で Loss を見ながらいじる学習体験は Local のみ。
ここまでが Local が勝つ領域。逆に言えば、これ以外の領域 (1回限りの相談、会議の議事録要約、複雑な推論タスク) では、2026年現在は API の方が経済合理性が高い。
🧪 私の RTX 4060 8GB で実測した hybrid 運用
実際に私が運用しているハイブリッドの構成を晒す。
┌─────────────────────────┐
│ 日常タスク (Local) │
│ - コード補完 │ → Qwen2.5-7B Q4 / llama.cpp / GPU
│ - 短い相談 │ → Qwen2.5-7B Q4
│ - JSON抽出 │ → Qwen2.5-7B Q4
│ - 日次ログ要約 │ → llama.cpp バッチ
└─────────────────────────┘
↓ (難しいタスク)
┌─────────────────────────┐
│ 特殊タスク (API) │
│ - 長文設計議論 │ → Claude Sonnet 4.6
│ - コード設計レビュー │ → Claude Sonnet 4.6
│ - 数式・物理証明 │ → Claude Opus 4.7 (限定)
│ - バッチ処理 │ → DeepSeek V4 Pro
└─────────────────────────┘
想定コスト試算 (実測ではなく、私の使用パターンから推定した数値):
- Local 推論時間: 約 60h/月 (主にコーディング補完を想定)
- 電気代: 約 ¥800/月 (130W × 60h × ¥30/kWh の概算)
- API 使用想定: Sonnet 0.4Mtok ($6 ≈ ¥900), Opus 0.05Mtok ($1.25 ≈ ¥190), DeepSeek 8Mtok ($7 ≈ ¥1,050)
- 合計: ¥2,940/月 (Local電気代 + API合計、いずれも想定)
これを「API only」(全部 Sonnet) で換算すると、月使用量 ~10Mtok 想定で ¥22,500。**hybrid 設計でのコスト圧縮率は理論上約87%**になる計算。
⚠️ 注: 上記は実際の月次ログから引いた数字ではなく、私のワークロード想定からの試算値。実測月次ログは取っていないため、参考値として扱ってほしい。コーディング比率が高い前提なので、長文ドラフト中心の使い方なら Sonnet/Opus 比率が上がってもっと API 寄りになる。
🎯 hybrid 設計の3原則 (実用ルール)
実際に hybrid を機能させるには、ルールを言語化しておく必要がある。私は以下の3つで運用している。
原則1: タスクを4象限で見る
| 短い | 長い | |
|---|---|---|
| 簡単 | Local (Qwen2.5-7B) | DeepSeek V4 Pro |
| 難しい | Sonnet 4.6 | Opus 4.7 |
「難しい」かどうかの判定は、Local モデルに最初に投げて、出力の質が低ければエスカレーションする。これを手動でやるより、ルーター LLM (軽量 7B モデル) に判断させる方が早い。私は llama.cpp の独自スクリプトでやっている。
原則2: キャッシュとストリーミングをフル活用
DeepSeek V4 Pro は cache hit で価格が 1/10 になる。同じ system prompt を繰り返し送るバッチ処理ではこれが大きい。
Local 側は --cache-type-k q4_0 で KV cache を量子化、メモリ余裕を稼ぐ。これも前に書いたが (KV キャッシュを Q4 に落としたら 32K コンテキストが入った)、cache 設計が hybrid の経済合理性を左右する。
原則3: 失敗したらエスカレーション、成功したら降格
Local で出力品質が低かったら API に投げる。これは当たり前。だが逆も重要で、**API で何度か成功した patternは Local モデルの軽量プロンプトに「降格」**して、次回以降は無料化する。
例: 「JSONスキーマに沿って出力する」タスクは、最初は Sonnet で書かせ、template化したら以降は Qwen2.5-7B + grammar制約で十分回るようになる。**API は「学習装置」、Local は「実行装置」**として使い分ける。
🚪 8GB の物理的天井と hybrid の正当化
ここで本ブログのアイデンティティに戻る。RTX 4060 8GB の物理的天井は明確で、
- Qwen2.5-7B Q4: 余裕 (4-5GB)
- Qwen2.5-14B Q4: ギリギリ (~7GB、長コンテキストで OOM)
- 32B以上: KV cache offload や制約付きでないと動かない
「全部 Local」は8GBでは現実的じゃない。これを認めた上で、
- Local で動く 7B/14B 級は Local で
- それ以上の品質が必要なら API へ
という線引きが、hybrid の合理性を支える。「Local LLM は経済的に逆転した」と煽るブログ記事は多いが、8GB制約を無視した議論は信じない方がいい。本記事の数字は、その制約を持っている個人開発者の現実から書いている。
🔮 2026後半〜2027の予想
ここからは個人考察 (Lv4: 公開データからの外挿)。
1. DeepSeek 級の超低価格 API は当面続く: 中国系・ヨーロッパ系の OSS ベース API (Qwen Cloud, Mistral, Pollux 等) は per-token 価格を下げ続ける。Opus は per-token 競争に乗らない(品質で売る)。価格の二極化が進む。
2. ハイパースケーラの統合圧力: 「自社で API も自社チップも持つ」AWS Bedrock + Trainium、Google Cloud + TPU、Azure + Maia の三社は、それぞれ自社チップで動く API を内部値下げする。Open API市場と内部 API市場が分離する可能性が高い。
3. ローカル側は16GB が新標準に: NVIDIA の RTX 50シリーズ Super (16GB) や AMD RX 9070 XT (16GB) が普及帯に降りてくると、Local LLM のスイートスポットは 14B → 30B クラスに上がる。8GB は来年に「最低限ライン下」になる可能性がある。
4. hybrid 運用が新標準: 個人開発者の AI ツールチェーンは「全部 API」「全部 Local」のどちらでもなく、ルーティング層を持つ hybridに統一されていく。Cursor, Cline, Claude Code, ContinueDev のような製品は既にその方向。
📌 まとめ — 2026年の AI 開発者の合理的選択
API vs Local の戦いは、API側の内部分裂で終わった。Opus 4.7 値上げと DeepSeek $0.87 という30倍格差は、もはや「同じ製品カテゴリ」とは言えない別物だ。
個人開発者の現実的な戦略:
- コア作業: Local (Qwen 7B/14B) + 高頻度キャッシュ
- 重い思考: Sonnet/Opus に絞り込んでエスカレーション
- 大量バッチ: DeepSeek (cache hit活用)
- 「全部 API」「全部 Local」はどちらも経済的に不合理
そして 8GB の物理天井がある以上、hybrid 設計は 8GB ブロガーにとって必須スキルになる。これからの「個人 AI スタック」は、API のリストと Local モデルのリストの 両方を持っている人が勝つ。