はじめに
2026年Q1、OpenAIが1,220億ドルの資金調達を完了し、企業価値は8,520億ドルに達しました(CNBC報道)。Anthropicも300億ドルのSeries Gを3,800億ドルのバリュエーションでクローズしています(Anthropic公式)。
同じ四半期に、中国のDeepSeekが1兆パラメータ規模のMoEモデル「DeepSeek V4」のリーク情報で業界を揺らしています。前世代のV3が公式訓練コスト約558万ドルだったことを踏まえると、V4も同水準かそれ以下のコストで訓練された可能性があります。コストの桁が3つ違う世界が現実味を帯びてきました。
なぜそれが可能なのか、そしてAI業界に何をもたらすのかを整理します。
本記事の執筆時点(2026年4月6日)で、DeepSeek V4は正式リリースされていません。3月9日にDeepSeekのWebインターフェースに「V4 Lite」が出現しましたが、公式な発表・技術レポートは未公開です(PromptZone報道)。本記事のスペック・ベンチマークは事前リーク情報に基づいており、正式発表で変更される可能性があります。
DeepSeek V4のリーク情報に基づく概要
| 項目 | 仕様(リーク情報) |
|---|---|
| 総パラメータ数 | 約1兆(1T)。V3の671Bから約50%増 |
| 推論時アクティブパラメータ | 約32B(V3の37Bから削減) |
| アーキテクチャ | Mixture-of-Experts(MoE) |
| エキスパート構成 | 256エキスパートプール + 1共有エキスパート、Top-8ルーティング |
| コンテキスト長 | 100万トークン(Engram条件付きメモリ) |
| モダリティ | テキスト・画像・動画(ネイティブマルチモーダル) |
| ライセンス | Apache 2.0(オープンウェイト)予定 |
ベンチマーク比較(リーク情報含む)
2026年4月時点での主要モデルとの比較です。
| ベンチマーク | DeepSeek V4 (リーク) | Claude Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| SWE-bench Verified | 80-85% (未検証) | 80.8% | 非公開 |
| HumanEval | 90% (未検証) | 高水準 | 高水準 |
| API入力単価 (/MTok) | $0.30 (※未公式) | $5.00 | $2.50 |
| API出力単価 (/MTok) | $0.50 (※未公式) | $25.00 | $15.00 |
出典: Claude価格はAnthropic公式、GPT-5.4価格はOpenAI公式
DeepSeek V4の価格(入力$0.30/MTok、出力$0.50/MTok)はリーク情報に基づく推定値であり、公式には未発表です。参考として、現行V3.2の公式価格は入力$0.28/MTok・出力$0.42/MTokです(DeepSeek API Docs)。正式リリース時に価格が変更される可能性があります。
注目すべきは性能そのものよりもAPI単価の差です。リーク情報の価格が正しいと仮定した場合、入力単価でClaude Opus 4.6の約17分の1、GPT-5.4の約8分の1です。出力単価でもClaude Opus 4.6の50分の1、GPT-5.4の30分の1になります。
MoEアーキテクチャがなぜコスト効率に優れるのか
密なモデルとMoEの根本的な違い
従来のDense Transformerでは全パラメータが全トークンの処理に使われ、パラメータ数と計算量が比例します。MoEはフィードフォワード層を「エキスパート」と呼ばれる小さなサブネットワークに分割し、各トークンに対して一部だけを選択的に起動します。
DeepSeek V4は256個のエキスパートプールと1個の共有エキスパートを持ち、Top-8ルーティングで各トークンに8個の専門エキスパート+1共有エキスパートを選択します(dev.to解説)。総パラメータ1兆のうちアクティブになるのは約32B、全体の約3%です。
ルーティング関数とエキスパート選択
「ルーター」(ゲート関数)がトークンの隠れ状態ベクトルから256エキスパートそれぞれのスコアを算出し、上位8個を選択します。各エキスパートの出力はスコアに応じた重みで加算されます。
DeepSeekの特徴は「Fine-Grained Expert Segmentation」で、少数の大きなエキスパートではなく多数の小さなエキスパートに分割します。コード、数学、創作、多言語などドメインごとにエキスパートが特化し、各トークンに最適な組み合わせが動的に選ばれます。
推論時のメモリ使用
全パラメータ保持にはBF16精度で約1.34TBのVRAMが必要ですが、推論時は32Bパラメータ分の計算しか行いません。共有エキスパートをキャッシュに常駐させ、専門エキスパートはオンデマンドでロードする階層的メモリ管理が可能です。この設計により、同じFLOPsで密なモデルの約3倍速く目標損失に到達できるとされています。
訓練安定化技術mHCの仕組み
なぜ大規模MoE訓練は不安定になるのか
Transformerの残差接続は深い層への勾配伝搬を可能にしますが、層数が増えると勾配が爆発しやすくなります。ByteDanceが提案したHyper-Connections(HC)は層間接続を多様化しますが、残差接続の「恒等写像」性質を損なうため、大規模モデルで訓練12kステップ付近の損失急上昇が観測されていました(arxiv)。
mHCの解決アプローチ
2026年1月公開のmHCは、HCの混合行列を「Birkhoff Polytope」(二重確率行列の集合)上に制約することで解決します(DeepSeek AI Blog)。Sinkhorn-Knoppアルゴリズムで行和・列和がともに1の二重確率行列を強制し、スペクトルノルムの上界を1以下に保証します。これにより信号増幅が物理的に発生せず、恒等写像に近い性質を維持しながら層間の情報フローを多様化できます。
27Bモデルでの検証では、非拘束HCの信号増幅約3,000倍に対し、mHCでは約1.6倍に抑制。訓練オーバーヘッドはわずか6.7%増です。
「訓練コスト」と「研究開発費」の違い
V3の公式訓練コスト$558万の内訳
DeepSeek V3の技術レポート(arxiv)によると、公式訓練コスト$558万は278.8万H800 GPU時間 x $2/GPU時間の計算です。事前訓練(14.8兆トークン、266.4万GPU時間)が大部分を占め、コンテキスト長拡張(11.9万)と事後訓練(0.5万)が続きます。
この数字に含まれないもの
$558万にはアーキテクチャ探索、アブレーション実験、データ収集、人件費、先行研究の蓄積コストが含まれていません。SemiAnalysisの分析(SemiAnalysis)では、DeepSeekのGPU投資だけで5億ドル超、総サーバーCapExは約16億ドルと推定されています。
「数百万ドルで訓練できる」という言説は、巨大な研究インフラの上で初めて成立する数字です。再現にはアーキテクチャの知見、高品質データパイプライン、GPUクラスターへのアクセスが必要であり、小規模チームが同じことをできるわけではありません。V4の公式訓練コストは未発表です。
Q1 2026 VC投資$2,970億のコントラスト
2026年Q1、世界のVC投資は過去最高の2,970億ドルに達し、うち81%がAI分野に集中しました(Crunchbase)。OpenAI($1,200億、バリュエーション$8,520億)、Anthropic($300億、バリュエーション$3,800億)、xAI($200億)、Waymo($160億)の4社で全体の64%を占めています(TechCrunch、Bloomberg)。
注意すべきは、これらの金額は「調達額」であり「企業価値」ではない点です。調達資金は訓練コストだけでなくデータセンター建設、人材確保、製品開発に広く使われます。DeepSeek自身も累積ハードウェア投資16億ドル超と推定されており、「巨額投資は不要」という読み方は適切ではありません。
コスト構造の比較
| 項目 | OpenAI (GPT-5.4) | Anthropic (Claude Opus 4.6) | DeepSeek (V4) |
|---|---|---|---|
| 直近の調達額 | $1,220億 | $300億 | 非公開 |
| バリュエーション | $8,520億 | $3,800億 | 非公開 |
| 推定訓練コスト | 数億ドル | 数億ドル | 未公開(V3は$558万) |
| モデル公開 | クローズド | クローズド | オープンウェイト(予定) |
| 推論コスト (入力/MTok) | $2.50 | $5.00 | $0.30 (※リーク情報。V3.2公式: $0.28) |
| 推論コスト (出力/MTok) | $15.00 | $25.00 | $0.50 (※リーク情報。V3.2公式: $0.42) |
出典: OpenAI・Anthropicは各社公式価格ページ(2026年4月時点)。DeepSeek V4価格はリーク情報に基づく推定値(V3.2公式価格はDeepSeek API Docs)
セルフホスティングの技術的現実
1兆パラメータMoEに必要なリソース
オープンウェイトだからといって、誰でも動かせるわけではありません。1兆パラメータモデルの要件を整理します(WaveSpeedAI)。
全エキスパートをBF16精度でメモリに載せる場合、約1.34TBのVRAMが必要です。個人で用意できる規模ではありません。
ただしMoEの特性上、推論時にアクティブになるのは約32Bパラメータです。量子化を適用した場合の目安は以下の通りです。
| 量子化方式 | アクティブ重み必要VRAM | 実効VRAM(メタデータ含む) |
|---|---|---|
| Q8(1バイト/パラメータ) | 約32GB | 42-46GB |
| Q4(0.5バイト/パラメータ) | 約16GB | 22-26GB |
RTX 4090は24GB GDDR6X VRAMを搭載しています(NVIDIA公式)。2枚構成で48GBですが、NVLink非対応のためメモリプールは統合されません。各GPUが独立した24GBとして動作するため、モデルを適切に分割するテンソル並列やパイプライン並列の設定が必要です。Q4量子化であれば2枚構成で動作する可能性がありますが、全エキスパートの常駐は不可能なため、エキスパートのオフロード戦略が必須になります。
推論スループットの制約
MoEモデルの推論ではエキスパートの動的ロードが頻繁に発生します。PCIe Gen4 x16の帯域は約32GB/sで、低レイテンシが求められる場合は全エキスパートをVRAMに常駐させるか、高速NVMe SSDとの組み合わせが必要です。分散推論フレームワーク(vLLM等)の進化で複数GPUへの分散は実用段階に入りつつありますが、個人が自宅で1兆パラメータMoEをフルスペックで動かすのは2026年時点では非現実的です。
コスト面の損益分岐とデータ主権
DeepSeekのAPI単価はリーク情報ベースで入力$0.30/MTok・出力$0.50/MTok(現行V3.2は入力$0.28/MTok・出力$0.42/MTok)と非常に安いため、セルフホストとの損益分岐点は月間数十億トークン以上になります。コスト面だけならほとんどのケースでAPI利用が合理的です。
一方、機密データを外部APIに送れない企業にとっては、オープンウェイトモデルのセルフホスティングが実質的に唯一の選択肢です。日本でもデジタル庁がガバメントAI「源内」用に国産LLM 7モデルを選定し、2026年5月から全府省庁での実証を開始します。データ主権を重視する公共セクターでのオープンモデル需要は今後さらに高まるでしょう。
筆者自身はDeepSeek V4のAPIをまだ検証できていません。V4 Liteと思われるモデルが3月にWeb経由で利用可能になりましたが、公式APIとしてのV4提供はまだです。正式リリース後に実際のレイテンシやコーディングタスクでの品質を検証する予定です。
まとめ
DeepSeek V4は「お金をかければ良いモデルが作れる」という前提に疑問を投げかけています。MoEアーキテクチャによる3%のパラメータ活性化率、mHCによる大規模訓練の安定化、そしてFine-Grained Expert Segmentationによるドメイン特化が、低コストでのフロンティア性能達成を技術的に支えています。
ただし、冷静に見るべき点もあります。V4は2026年4月時点で正式リリースされておらず、ベンチマーク数値は未検証です。公式訓練コストも未発表であり、V3の$558万という数字は研究開発費を含まない限定的な指標です。DeepSeek自身の累積インフラ投資は16億ドル超と推定されています。
オープンウェイトモデルの選択肢が広がることは、API利用者にもセルフホスティング志向の開発者にもプラスです。API単価はClaude Opus 4.6やGPT-5.4と比べて1桁以上安く、セルフホスティングもQ4量子化で消費者向けGPUでの動作可能性が見えています。
「安く作れた」ことと「安く使える」ことは別の話です。さらに「安く作れた」とされるコスト自体の定義にも注意が必要です。自分のユースケースに照らして、正式リリースを待った上で冷静に判断することが重要です。