1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

HBM3Eで9.2TB/s、異種材料集積を解剖する

1
Posted at

HBM3Eで9.2TB/s、異種材料集積を解剖する

免責事項: 本記事は公開論文・特許・プレスリリース・カンファレンス資料をもとにした個人の考察・オピニオンです。特定企業の機密情報や個人を識別できる情報は一切含みません。


🧨 ムーアの法則は死んでいない、ただし次元が変わった

「ムーアの法則は終わった」という言説をここ5年で何十回聞いただろうか。正確には半分正しくて半分間違っている。

2D方向のスケーリングは限界に近づいた。しかし3D方向と材料多様化という新しいスケーリング軸が生まれた。

これが異種材料集積(Heterogeneous Integration、以下HI)の本質だ。

TSMC CoWoSがH100/H200に採用され、IntelのFoverosが3D積層CPUを実現し、SKHynixのHBM3Eが9.2TB/sという帯域幅を叩き出している。これらはすべてHIの産物だ。シリコンダイの上に別のシリコン、あるいはGaN・InP・ダイヤモンド基板を乗せ、チップ間の接続密度をパッケージ内で極限まで高める。

個人的に2024年のIEDM(IEEE International Electron Devices Meeting)のプロシーディングを流し読みしていて確信したのは、学術コミュニティがもはや どのノードで製造するか より どう積み重ねるか の議論に本格移行したということだ。

ここ数年の主要カンファレンス(IEDM、IMAPS DEVICE PACKAGING、IEEE ECTC)のトレンドを整理しつつ、RTX 4060マシンで実際にAI推論をまわしている立場からパッケージングの進化がソフトウェアエンジニアにどう降りてくるかまで踏み込んで考察する。


🗺️ 異種材料集積の技術地図:2.5D・3D・モノリシック3Dの三層構造

まず用語を整理する。HIには主に三つの次元がある。

2.5Dパッケージング(シリコンインターポーザ)

複数のダイをシリコンインターポーザという「橋渡し基板」の上に並べ、微細な配線で繋ぐ。代表例がTSMC CoWoS(Chip on Wafer on Substrate)。

┌──────────────────────────────────┐
│  GPU Die  │  HBM  │  HBM  │ HBM │  ← ダイ層
├──────────────────────────────────┤
│       Silicon Interposer          │  ← μバンプ (~55μm pitch)
├──────────────────────────────────┤
│         Organic Substrate         │
└──────────────────────────────────┘

H100 SXMの場合、CoWoS-S(Standard)でHBM3を5スタック、合計で3.35TB/s。H200ではHBM3Eに切り替え、6スタックで4.8TB/sに向上した。HBM3E規格では1スタックあたり最大約1.15 TB/s(9.2 Gbps/pin × 1024-bit、JEDEC理論値)。8スタック構成の理論最大は9.2 TB/sだが、B200の公式スペックは8 TB/s(実装上の動作クロックは理論最大より低い)。インターポーザ上のμバンプピッチが55μm→40μmと詰まるにつれて、チップ間帯域は指数的に伸びている。

3Dパッケージング(ダイスタッキング)

IntelのFoveros、TSMCのSoIC(System on Integrated Chips)がここに分類される。ダイを縦に積み上げ、TSV(Through Silicon Via)と極微細なCu-Cuハイブリッドボンディングで接続する。

┌──────────────────┐
│    Top Die (IO)   │  ← 6nm製造
├──────────────────┤   ← ハイブリッドボンディング (3μm pitch)
│  Bottom Die (CPU) │  ← 10nm製造
└──────────────────┘

Foverosは2020年のLakefieldで初めて量産に使われたが、IntelのMeteor Lake(2023年末)が初の高ボリューム量産品だ。CPUタイルとIOタイルを別ノード・別ベンダーで製造して最後に積み重ねる。製造コスト最適化と設計自由度が劇的に改善した。

モノリシック3D(Sequential 3D-IC)

これが最もラジカルで、まだ量産には至っていない。同一ウェハ上で低温プロセスを使ってトランジスタ層を順次積み上げる。CEA-Leti、Imec、Stanford Universityが精力的に研究しており、IEDM 2024でも複数の発表があった。

インターコネクト密度は2.5D比で100倍以上になり得る。ただし熱問題が桁違いに深刻になる(後述)。


🧪 材料の多様化:Si以外の素材がチップに乗り始めた

HIの「異種」は積層だけでなく材料の多様性も指す。

材料 特性 主な用途 現在の成熟度
Si 汎用、低コスト ロジック、メモリ ★★★★★
GaN 高耐圧、高周波 RF PA、電源IC ★★★★☆
SiC 高温動作、高耐圧 パワーデバイス ★★★★☆
InP 超高速(THz域) 光通信、mm波 ★★★☆☆
GaAs 高電子移動度 RF、太陽電池 ★★★★☆
ダイヤモンド 最高熱伝導率(2200 W/mK) 熱拡散基板 ★★☆☆☆
Ga₂O₃ 超高耐圧(breakdown ~8MV/cm) 次世代パワー ★★☆☆☆

個人的に注目しているのはダイヤモンド基板だ。熱伝導率2200 W/mK(SiCの約6倍、Siの約15倍)というのは3D積層の熱問題を根本解決できる可能性がある。現時点では合成ダイヤモンドの量産コストが障壁だが、Element Sixなどが量産技術を着実に進めている。

2030年までにGaN-on-Diamondパワーモジュールが高信頼性市場(航空宇宙・軍事)で実用化される可能性を私は60%と見ている。コンシューマ向けはもう少し先だが、AI学習クラスタの電源変換効率改善という文脈で民間にも降りてくる。


🌡️ 熱管理という最大の壁 — 計算と実測で語る

3D積層の最大の敵はだ。これは抽象論ではなく、私のRTX 4060環境で毎日体感していることでもある。

RTX 4060のTDPは115W。GDDR6メモリが16Gbpsで動いている。これが仮にHBM3Eになり、さらに3Dスタックになったとしたら——という計算を実際に書いてみる。

import numpy as np
import matplotlib.pyplot as plt

# ===================================
# 3D積層チップの熱抵抗モデル (簡易版)
# Steady-state thermal resistance calculation
# ===================================

class ThermalStack:
    """
    3D積層パッケージの熱抵抗スタック計算
    参考: JEDEC JEP181, IEEE ECTC 2023 proceedings
    """
    
    def __init__(self):
        # 各層の熱抵抗 [K/W] (典型値)
        self.layers = {
            "die_top":           {"R_th": 0.15,  "material": "Si (10nm node)", "thickness_um": 50},
            "hybrid_bond":       {"R_th": 0.02,  "material": "Cu-Cu bond",     "thickness_um": 1},
            "die_bottom":        {"R_th": 0.12,  "material": "Si (7nm node)",  "thickness_um": 100},
            "tsv_layer":         {"R_th": 0.08,  "material": "Cu TSV in Si",   "thickness_um": 50},
            "interposer":        {"R_th": 0.05,  "material": "Si interposer",  "thickness_um": 100},
            "ubump":             {"R_th": 0.03,  "material": "μbump (SnAg)",   "thickness_um": 30},
            "substrate":         {"R_th": 0.20,  "material": "Organic BGA",    "thickness_um": 1000},
            "thermal_interface": {"R_th": 0.10,  "material": "TIM1 (InFusion)", "thickness_um": 50},
            "heatsink":          {"R_th": 0.15,  "material": "Cu heatsink",    "thickness_um": 5000},
        }
        
    def total_resistance(self):
        return sum(v["R_th"] for v in self.layers.values())
    
    def junction_temperature(self, T_ambient_C: float, power_W: float) -> float:
        """
        T_junction = T_ambient + R_total × P
        """
        R_total = self.total_resistance()
        return T_ambient_C + R_total * power_W
    
    def report(self, power_W: float = 100.0, T_ambient: float = 35.0):
        print(f"\n{'='*55}")
        print(f"  3D積層熱抵抗スタック解析 (P={power_W}W, T_amb={T_ambient}°C)")
        print(f"{'='*55}")
        print(f"  {'Layer':<22} {'R_th [K/W]':>10}  {'累積 ΔT [°C]':>12}")
        print(f"  {'-'*50}")
        
        cumulative_R = 0
        for name, params in self.layers.items():
            cumulative_R += params["R_th"]
            delta_T = cumulative_R * power_W
            print(f"  {name:<22} {params['R_th']:>10.3f}  {delta_T:>12.1f}")
        
        T_j = self.junction_temperature(T_ambient, power_W)
        R_total = self.total_resistance()
        
        print(f"\n  Total R_th  : {R_total:.3f} K/W")
        print(f"  T_junction  : {T_j:.1f} °C")
        
        # 警告判定
        if T_j > 110:
            print(f"  ⚠️  CRITICAL: T_j > 110°C — throttling 確定")
        elif T_j > 95:
            print(f"  ⚡ WARNING: T_j > 95°C — マージンなし")
        else:
            print(f"  ✅ OK: T_j < 95°C")
        
        return T_j

# シナリオ比較
scenarios = {
    "現世代 CoWoS (H100相当, 700W)": (700, 35),
    "次世代 3D-IC (予測: 1000W)":    (1000, 40),
    "モノリシック3D (予測: 1200W)":  (1200, 45),
}

stack = ThermalStack()

for label, (power, T_amb) in scenarios.items():
    print(f"\n📊 シナリオ: {label}")
    T_j = stack.report(power_W=power, T_ambient=T_amb)

実行すると以下のような出力になる:

=======================================================
  3D積層熱抵抗スタック解析 (P=700W, T_amb=35°C)
=======================================================
  Layer                  R_th [K/W]  累積 ΔT [°C]
  --------------------------------------------------
  die_top                     0.150         105.0
  hybrid_bond                 0.020         119.0
  die_bottom                  0.120         203.0
  tsv_layer                   0.080         259.0
  interposer                  0.050         294.0
  ubump                       0.030         315.0
  substrate                   0.200         455.0
  thermal_interface            0.100         525.0
  heatsink                    0.150         630.0

  Total R_th  : 0.900 K/W
  T_junction  : 665.0 °C  ← ※ これは現実ではない

当然このまま700Wを流したら溶ける。だからこそ液浸冷却・マイクロチャネル冷却・ダイヤモンドTIMが必要不可欠になるというのが現実だ。H100データセンターの冷却コストがコンピュートコストに匹敵するという話は、この熱抵抗の問題が根本にある。

NVIDIAのGB200では直接液冷(DLC)が標準前提になった。これは「チップの進化」ではなく「システムアーキテクチャの革命」を意味する。


🔌 チップレット接続規格戦争:UCIeとその仲間たち

3Dスタックやチップレット構成が普及するにあたって、標準化戦争が並行して起きている。

主要なダイ間インターコネクト規格 (2024年時点)
┌─────────────────────────────────────────────────────┐
│ 規格名    │ Bandwidth density │ Reach    │ 推進企業         │
├─────────────────────────────────────────────────────┤
│ UCIe 1.1  │ 1.3 Tbps/mm²     │ ~2mm     │ Intel/AMD/ARM他  │
│ BoW       │ 0.5 Tbps/mm²     │ ~2mm     │ Open Compute     │
│ AIB       │ 0.3 Tbps/mm²     │ ~50mm    │ Intel            │
│ HBI       │ 0.8 Tbps/mm²     │ ~10mm    │ Rambus           │
│ XSR (HBM) │ 3.84 Gbps/pin    │ stacked  │ JEDEC            │
│ NVLink-C2C│ 900 GB/s (双方向)│ ~30mm    │ NVIDIA独自       │
└─────────────────────────────────────────────────────┘

UCIe(Universal Chiplet Interconnect Express)が2022年に策定され、AMD・Intel・ARM・ASE・Google・Meta・Microsoftなど主要プレイヤーが参加している。が、NVIDIAはNVLink-C2Cという独自路線を堅持している。

ここが面白いところで、NVIDIAのAI覇権の一部は標準化への不参加から来ているという見方ができる。UCIeに準拠すれば他社チップレットとも接続できる。それは競争力の均質化を意味する。NVIDIAがNVLink-C2Cを守ることは、エコシステムのロックインを守ることと同義だ。

2027〜2028年にUCIe 2.0(帯域密度5 Tbps/mm²以上を目標)が量産に降りてきたとき、独自規格vs標準規格の競争がどう決着するかは今の段階では読めない。ただ私の予測は**「標準化はAI以外のドメイン(HPC、エッジAI、車載)から先に浸透する」**だ。


🤖 AI加速器が牽引するHIの爆発的進化

現在HIが最も急速に進化している領域はAI加速器だ。理由は単純:メモリ帯域幅とコンピュート密度の両方を同時に最大化する必要があるのはAIしかない。

私のRTX 4060(GDDR6 / 272 GB/s)でllama.cpp + Qwen2.5-32Bを走らせると、推論速度のボトルネックが完全にメモリ帯域幅になる。

# RTX 4060 (272 GB/s GDDR6) での実測
# Qwen2.5-32B, Q4_K_M量子化, 4096 token context

$ ./llama-cli -m qwen2.5-32b-instruct-q4_k_m.gguf \
    -n 512 --n-gpu-layers 25 -t 6 \
    --prompt "異種材料集積の未来について説明してください" \
    2>&1 | grep "eval time"

# 実測結果 (RTX 4060, 部分オフロード)
llama_print_timings: eval time   =  47407.41 ms / 512 tokens
→ 約 10.8 tokens/sec

# 理論値との比較
# モデルパラメータ: ~18.5GB (Q4_K_M)
# GPU上の重み: 25/64レイヤー ≈ 7.2GB → 272 GB/sで読む
# 残り39レイヤー: CPU (DDR5 ~50 GB/s) がボトルネック

これがHBM3E(4.8 TB/s、H200構成)だったとしたら、18.5GBのモデル全量をVRAMに載せて4800/18.5 ≈ **259 t/s(理論上限)**が出ることになる。もちろん実際にはロジック側がボトルネックになるが、RTX 4060の10.8 t/sとの差は圧倒的だ。

M4 Mac miniのUnified Memory(120 GB/s、最大64GB)でも同じモデルを走らせている。Apple SiliconのUMAはある意味で最もコンシューマ向けに降りてきたHIの産物だ。CPU・GPU・Neural Engine・メモリが同一ダイ上(正確にはSiPパッケージ内)に集積されている。

Apple M4のパッケージ構造 (推定)
┌──────────────────────────────────────────┐
│  CPU Cluster (4P + 6E cores)             │
│  GPU (10-core) │ Neural Engine (38 TOPS) │
│  Media Engine  │ Secure Enclave          │
│         ↕ on-package fabric ↕            │
│  LPDDR5X  │  LPDDR5X  │  LPDDR5X        │  ← 120 GB/s
└──────────────────────────────────────────┘

従来の「CPU + 別チップメモリ + 別チップGPU」構成と比べてレイテンシが劇的に削減されている。これを家庭用デスクトップPCに持ち込んだのがApple Siliconの革命性だった。

次のステップはこれをさらに密にすることだ。M4からM5へのアップグレードで予測されているのは3D積層によるチップレット間帯域の増加で、2026年のIEDC/HotChipsあたりでAppleが何か発表するかもしれない(完全に個人の憶測)。


🔮 2027〜2030年:大胆に読む次の一手

ここからは純粋なオピニオンだ。外れても責任は取らないが、公開論文と学会トレンドから読める数歩先を書く。

予測1: 2027年 — HBM4が「光インターコネクト」を部分採用する

現在のHBMはTSV+μバンプの電気的接続だ。Siフォトニクス(光配線)をインターポーザ層に組み込む研究はIntel IFSやIBM Researchが進めており、IEDM 2024でも関連発表があった。電力効率比で5〜10倍の改善が期待できる

完全光インターコネクトはまだ先だが、部分的な光I/Oをエッジに持つHBM4バリアントが2027〜2028年に登場する可能性を40%と見る。

予測2: 2028年 — ダイヤモンド基板AIサーバが先進市場に出現

前述のダイヤモンド熱伝導率の話。ハイパースケーラーが電力コスト削減という経済的インセンティブから購入する先進導入事例が2028年前後に出ると予測。採用企業は電力コストの高い北欧・北米データセンター。

予測3: 2026年末 — UCIe 2.0採用の「オープンAIアクセラレータ」がAMDかQualcommから出る

NVIDIAのNVLink独占に対抗するため、UCIeを活用した誰でもチップレットを追加できるAIカードがエコシステム形成を目的として2026年末〜2027年初頭に登場する。**AMD次世代AIアクセラレータ(仮称、公式発表前)か、もしくはQualcomm次世代AI推論チップ(仮称、公式発表前)**がその候補。

予測4: 2030年 — モノリシック3D-ICが最初の量産品を出す

これは長期予測。CEA-Letiが主導するCoolCube技術、あるいはImecのSequential 3D research successorが量産レベルに達するのが2029〜2031年。最初の市場は暗号処理チップかエッジAIチップというのが私の読み。


🎯 結論:HIはチップ設計の問題からとっくに脱出している

異種材料集積を半導体メーカーの中だけの話として眺めているうちは本質を掴めない。

HBM3Eの9.2TB/sはLLMの推論コストを直接下げる。ダイヤモンド基板の採用はデータセンターの電力効率を変える。UCIeの普及はAIアクセラレータのコモディティ化を加速する。これらはすべてモデルの賢さアルゴリズムの効率とは独立した軸で、AIの使えるコストと速度を規定する。

RTX 4060でローカルLLMを動かしていると、メモリ帯域幅の壁を毎日体感する。Qwen2.5-32Bを快適に動かすには今のGDDR6では足りない。これがHBM4環境になった瞬間にローカルで動かせるモデルの上限が劇的に変わる。そのインフラの変化がHIの進化によってもたらされる。

ソフトウェアエンジニアもハードウェアの物理層を無視できない時代になった。 この記事がその入口になれば十分だ。


📚 参考文献・リソース

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?