結論
2026年4月24日にリリースされた DeepSeek-V4 は、三つの独自アーキテクチャ革新(Engram・mHC・DSA)と Huawei Ascend 910B/950 への本番対応を同時に達成した 1.6T パラメータ MoE モデルである。
コスト面では既存フロンティアモデルと比較して最大 97% の削減が可能であり、米国 GPU 輸出規制という地政学的制約の中で開発された点も注目に値する。スケーリング則が頭打ちになりつつある現在、DeepSeek-V4 はアーキテクチャ革新とハードウェア最適化によってポスト・スケーリング時代の方向性を示している。
前提知識
本記事を読む前に以下の概念を把握しておくと理解が深まる。
- MoE(Mixture of Experts): 入力ごとに一部のエキスパートのみを活性化するスパースアーキテクチャ。全パラメータを毎回使わないため、推論コストをパラメータ数に比例させずに済む
- KV キャッシュ: Transformer の推論高速化に使われる Key-Value キャッシュ。長コンテキストでは GPU HBM を大量消費する
- LSH(Locality-Sensitive Hashing): 類似ベクトルを同じバケットにハッシュする手法。近似最近傍探索に使われる
- Sinkhorn-Knopp: 行列を二重確率行列(各行・列の和が 1)に収束させる反復アルゴリズム
- CANN(Compute Architecture for Neural Networks): Huawei が開発した AI アクセラレータ向けソフトウェアスタック。CUDA に相当する役割を担う
環境・モデル情報
モデル ID とエンドポイント
| 項目 | 値 |
|---|---|
| API エンドポイント | https://api.deepseek.com/v1 |
| V4-Pro モデル ID | deepseek-v4-pro |
| V4-Flash モデル ID | deepseek-v4-flash |
| 推論モード | deepseek-v4-pro-reasoning |
| デフォルトコンテキスト長 | 1,000,000 トークン |
| 総パラメータ数 | 1.6T(MoE、推論時アクティブは一部のみ) |
| 公開ウェイト | HuggingFace / ModelScope |
オープンソースウェイト
- HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
- ModelScope: https://modelscope.cn/models/deepseek-ai/DeepSeek-V4-Pro
- 技術レポート: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
1. Huawei Ascend 対応
背景:米国 GPU 輸出規制
2022 年 10 月以降、米国政府は NVIDIA H100/A100 等の高性能 GPU の中国向け輸出を段階的に規制している。DeepSeek はこの制約下で開発を継続するため、Huawei Ascend 910B/950 を主要な学習・推論インフラとして採用した。
技術的達成
| 指標 | 数値 |
|---|---|
| Ascend 910B/950 利用率 | 85% 以上(国産チップの典型値 60% を大幅に上回る) |
| A100 比コスト | 40% 削減 |
| フレームワーク | CANN(Compute Architecture for Neural Networks) |
| 品質水準 | A100 相当(本番検証済み) |
カーネルレベルの共同最適化
DeepSeek チームは Huawei と共同で CANN フレームワーク上の以下の最適化を実施した。
オペレータフュージョン(Operator Fusion):
- MoE ルーティング・アテンション・FFN の複数カーネルを単一カーネルに融合
- カーネル起動オーバーヘッドとメモリ往復を削減
- Ascend のベクトル演算ユニット(VPU)の特性に合わせた演算順序の再設計
メモリ帯域幅スケジューリング:
- Ascend 910B の HBM 帯域幅特性に合わせたタイリング戦略
- FlashAttention 相当のブロック分割を CANN 上で実装
- スパースアクティベーションパターンに対応したメモリレイアウト変更でキャッシュヒット率を向上
MoE ルーティング向け並列化:
- エキスパート間の通信オーバーヘッドを削減するオールリデュース最適化
- Ascend の集合通信ライブラリ(HCCL)との統合
意義
NVIDIA エコシステム外での本番グレード大規模モデル運用が実証されたことで、「高性能 LLM には CUDA が必須」という前提が崩れた。Reuters の報道(2026 年 4 月)が指摘するように、AI 開発インフラは現在「二つの並行スタック」として分岐しつつある。
2. API コスト比較
料金表(2026 年 4 月時点)
| モデル | 入力($/1M トークン) | 出力($/1M トークン) |
|---|---|---|
| DeepSeek V4-Pro | $0.55 | $2.19 |
| DeepSeek V4-Flash | $0.014 | $0.28 |
| GPT-4 Turbo | $10.00 | $30.00 |
| Claude Opus 4.6 | $15.00 | $75.00 |
| Gemini 3.1 Pro | $1.25 | $5.00 |
コストシナリオ別試算
シナリオ A:ドキュメント解析(月 100 万トークン入力・20 万トークン出力)
| モデル | 計算式 | 月額コスト |
|---|---|---|
| DeepSeek V4-Pro | $0.55×1 + $2.19×0.2 | $0.99 |
| DeepSeek V4-Flash | $0.014×1 + $0.28×0.2 | $0.07 |
| GPT-4 Turbo | $10×1 + $30×0.2 | $16.00 |
| Claude Opus 4.6 | $15×1 + $75×0.2 | $30.00 |
V4-Pro は GPT-4 Turbo 比で 94% 削減、Claude Opus 4.6 比で 97% 削減。
シナリオ B:コーディングアシスタント(月 500 万トークン入力・200 万トークン出力)
| モデル | 計算式 | 月額コスト |
|---|---|---|
| DeepSeek V4-Pro | $0.55×5 + $2.19×2 | $7.13 |
| GPT-4 Turbo | $10×5 + $30×2 | $110.00 |
| Claude Opus 4.6 | $15×5 + $75×2 | $225.00 |
V4-Flash はレイテンシより低コストを優先するバッチ処理・チャットボット用途に適している。V4-Pro は推論品質が求められるコーディング・分析タスク向け。
3. アーキテクチャ革新
DeepSeek-V4 は三つの独自技術を導入している。
3.1 Engram:メモリ・計算分離アーキテクチャ
問題: 従来の Transformer は KV キャッシュを GPU HBM に保持するため、長コンテキスト処理でメモリが逼迫する。100K トークンを超えると HBM 容量がボトルネックになり、1M トークンは事実上不可能だった。
解決策: Engram は KV キャッシュを CPU RAM に移動し、LSH(Locality-Sensitive Hashing)ベースのハッシュルックアップで必要なエントリのみを GPU に転送する。
[GPU HBM] [CPU RAM]
現在の計算処理 ←→ KV キャッシュ全体
アクティブな注意層 (LSH インデックス付き)
動的推論バッファ 過去トークンの全履歴
↑
必要なエントリのみ
オンデマンド転送
LSH ルックアップの仕組み:
- クエリベクトルを LSH でハッシュ化し、類似した過去トークンのバケットを特定
- 該当バケットの KV エントリのみを CPU RAM から GPU HBM に転送
- 全 KV キャッシュを GPU に保持する必要がなくなる
効果:
- 1M トークンコンテキストがデフォルト設定として実現可能
- GPU HBM の使用量を大幅削減(長コンテキストのメモリコストが実質的に CPU RAM コストに変換)
- LSH ルックアップのレイテンシは HBM アクセスより高いが、コンテキスト長の拡張効果がこれを上回る
なぜ 1M がデフォルトか: Engram により長コンテキストのメモリコストが CPU RAM コストに変換されるため、デフォルト値を引き上げても GPU リソースへの影響が限定的になる。CPU RAM は GPU HBM より桁違いに安価かつ大容量であるため、経済的に成立する。
3.2 mHC(Manifold-Constrained Hyper-Connections):MoE 安定化
問題: 1.6T パラメータ規模の MoE モデルでは、エキスパートへのトークン分配が偏り(load imbalance)、学習が不安定になりやすい。従来の auxiliary loss(補助損失)によるバランス調整は精度とのトレードオフが生じる。
解決策: mHC は 二重確率多様体(bi-stochastic manifold) 上でルーティングを行い、Sinkhorn-Knopp アルゴリズムで各エキスパートへの割り当てを均等化する。
Sinkhorn-Knopp の役割:
初期ルーティング行列 R(行=トークン、列=エキスパート)
↓ 行の正規化(各トークンの割り当て確率の和 = 1)
↓ 列の正規化(各エキスパートへの割り当て総量 = 1)
↓ 収束まで繰り返す(通常 5〜10 イテレーション)
→ 二重確率行列(行・列ともに和 = 1)
信号保存(signal conservation)の意味: 正規化後もルーティングスコアの情報量が保たれるよう設計されており、単純な softmax 正規化と異なりエキスパート間の相対的な重要度が維持される。これにより、均等分配と品質のトレードオフを最小化している。
多様体制約の役割: ルーティング行列を二重確率行列の多様体上に制約することで、勾配更新が多様体の接空間内に留まる。これにより学習の安定性が向上し、エキスパートの崩壊(collapse)を防ぐ。
効果:
- 1.6T MoE モデルの学習安定性を確保
- エキスパート利用率の均等化により GPU 利用効率が向上
- 従来の auxiliary loss によるバランス調整より精度が高い
3.3 DSA(DeepSeek Sparse Attention):アテンション計算の効率化
問題: 標準的な Self-Attention は O(n²) の計算・メモリ複雑度を持ち、長コンテキストでボトルネックになる。既存のスパースアテンション手法の多くはヘッド次元を圧縮するが、表現力の低下を招く。
解決策: DSA は トークン次元の圧縮(ヘッド次元ではなく)を行い、アテンション計算をほぼ線形に近づける。
仕組み:
- 入力シーケンスをトークン次元で動的にグループ化(適応的圧縮)
- グループ内の代表トークンのみでアテンションを計算
- 結果を元のトークン次元に展開(逆圧縮)
# DSA の概念的な処理フロー(擬似コード)
def dsa_attention(Q, K, V, seq_len):
# トークン次元で動的グループ化
groups = adaptive_grouping(Q, K, seq_len) # O(n log n)
# 代表トークンでアテンション計算
rep_Q = select_representatives(Q, groups)
rep_K = select_representatives(K, groups)
rep_V = select_representatives(V, groups)
# スパースアテンション(代表トークン間のみ)
attn = softmax(rep_Q @ rep_K.T / sqrt(d_k)) @ rep_V
# 元のトークン次元に展開
return expand_to_original(attn, groups)
効果:
- O(n²) → ほぼ線形(O(n log n) に近い)
- メモリ帯域幅使用量を 60〜70% 削減
- 1M トークンコンテキストの実用的な処理速度を実現
- ヘッド次元を保持するため表現力の低下が最小限
4. 地政学的背景とポスト・スケーリング時代
二つの並行 AI スタック
Reuters の報道(2026 年 4 月)によると、米中間の AI 開発は現在「二つの並行スタック」として分岐しつつある。
| 米国スタック | 中国スタック |
|---|---|
| NVIDIA H100/H200 | Huawei Ascend 910B/950 |
| CUDA / ROCm | CANN |
| OpenAI / Anthropic / Google | DeepSeek / Baidu / Alibaba |
DeepSeek-V4 はこの分岐において、中国スタックが米国スタックと競合できる性能水準に達したことを示す具体的な事例である。
ポスト・スケーリング・パラダイムシフト
スケーリング則(モデルサイズ・データ量・計算量を増やせば性能が向上する)は 2024〜2025 年頃から収穫逓減の兆候が見られ始めた。DeepSeek-V4 はこの状況に対して以下のアプローチで応答している。
- アーキテクチャ革新による効率化: 単純なパラメータ増加ではなく、Engram・mHC・DSA による質的な改善
- ハードウェア最適化の内製化: CANN カーネル最適化により、利用可能なハードウェアから最大限の性能を引き出す
- コスト効率の追求: 同等性能をより低コストで実現することで、スケーリングコストの問題を回避
輸出規制の強化が続く場合、Ascend 向けの最適化ノウハウはさらに重要性を増す。DeepSeek-V4 の CANN 最適化は、その先行事例として参照価値が高い。
5. API アクセスと実装例
curl による基本呼び出し
curl https://api.deepseek.com/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $DEEPSEEK_API_KEY" \
-d '{
"model": "deepseek-v4-pro",
"messages": [
{"role": "user", "content": "Pythonでクイックソートを実装してください"}
],
"max_tokens": 1024
}'
Python SDK による基本呼び出し
import openai # DeepSeek は OpenAI 互換 API を提供
client = openai.OpenAI(
api_key="YOUR_DEEPSEEK_API_KEY",
base_url="https://api.deepseek.com/v1"
)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "user", "content": "Pythonでクイックソートを実装してください"}
],
max_tokens=1024
)
print(response.choices[0].message.content)
長コンテキスト(1M トークン)の活用
# 大規模コードベースの解析例
with open("large_codebase.txt", "r", encoding="utf-8") as f:
code_content = f.read()
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{
"role": "user",
"content": f"以下のコードベースのアーキテクチャを解析し、改善点を指摘してください:\n\n{code_content}"
}
],
max_tokens=4096
# context_length はデフォルトで 1M トークン対応
)
推論モード(Reasoning モード)の有効化
# 数学・論理問題向け
response = client.chat.completions.create(
model="deepseek-v4-pro-reasoning",
messages=[
{"role": "user", "content": "P≠NP を仮定した場合、RSA 暗号の安全性の根拠を説明してください"}
],
extra_body={
"thinking": {"type": "enabled", "budget_tokens": 8000}
},
max_tokens=16000
)
# 思考プロセスと最終回答を分離して取得
thinking = response.choices[0].message.thinking_content
answer = response.choices[0].message.content
ストリーミング
stream = client.chat.completions.create(
model="deepseek-v4-flash",
messages=[{"role": "user", "content": "Rustの所有権システムを説明してください"}],
stream=True
)
for chunk in stream:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)
6. 開発者への示唆
コスト最適化の観点
- バッチ処理・ログ解析・ドキュメント要約: V4-Flash で十分。GPT-4 Turbo 比で 99% 以上のコスト削減が可能
- コードレビュー・複雑な推論: V4-Pro を使用。それでも Claude Opus 4.6 比で 97% 削減
- ハイブリッド戦略: 簡単なタスクを V4-Flash にルーティングし、複雑なタスクのみ V4-Pro に送る構成が費用対効果が高い
長コンテキストの活用
1M トークンのデフォルトコンテキストは以下のユースケースで実用的になる。
- 大規模コードベース全体を一度に渡してのリファクタリング提案
- 長大なログファイルの一括解析
- 複数ドキュメントにまたがる情報統合
Ascend 環境での展開
オンプレミスまたは Huawei Cloud を使用している組織は、DeepSeek-V4 の CANN 最適化済みウェイトを活用することで NVIDIA GPU なしでの本番運用が可能になる。
注意点
- DeepSeek API は中国企業が運営しており、データプライバシー・コンプライアンス要件を事前に確認する必要がある
- 推論モードは通常モードより応答時間が長くなる(思考トークン分のオーバーヘッド)
- V4-Flash は高速・低コストだが、複雑な多段推論では V4-Pro に劣る場合がある
- オープンソースウェイトをセルフホストする場合、1.6T パラメータの MoE モデルは相応のインフラが必要
参考資料
- DeepSeek-V4 技術レポート: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
- DeepSeek API ドキュメント: https://api.deepseek.com
- HuggingFace ウェイト: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
- ModelScope ウェイト: https://modelscope.cn/models/deepseek-ai/DeepSeek-V4-Pro
- Huawei CANN ドキュメント: https://www.hiascend.com/document/detail/ja/canncommercial/
- Sinkhorn, R. & Knopp, P. (1967). Concerning nonnegative matrices and doubly stochastic matrices. Pacific Journal of Mathematics, 21(2), 343–348.
DeepSeek Chat をブラウザで試したい場合は EvoLink で DeepSeek Chat を使う から利用できる。