3
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

NVIDIAの拡散+自己回帰ハイブリッドLLM TiDARについて

Posted at

【論文読み】NVIDIA TiDAR: 拡散モデルと思考し、自己回帰で語る (arXiv:2511.08923)

はじめに

NVIDIAから2025年11月に発表された論文 TiDAR: Think in Diffusion, Talk in Autoregression (arXiv:2511.08923) が、ローカルLLM界隈で大きな話題になりそうです。

既存のLLMの課題である推論速度を、拡散モデルとのハイブリッド化で解決する手法について、技術的な仕組みとハードウェアへの影響をまとめました。

*Gemini Pro3 に論文見てもらって会話してまとめてました。間違いあったらごめんなさい。

背景:なぜ拡散モデルなのか?

現在の主流である自己回帰 (Auto Regressive: AR) モデルは、1トークンずつ順番に生成する仕組み上、メモリ帯域幅に律速(Memory Bound)されやすく、GPUの計算能力を使い切れないという課題があります。

これに対し、MercuryLlada のような 拡散 (Diffusion) 言語モデル は、複数トークンの並列生成が可能なため高速ですが、ARモデルと比較して品質面で劣る、あるいは並列数を増やすと精度が下がるというトレードオフがありました。

TiDARのアーキテクチャ

TiDARは、このトレードオフを単一モデル内でのハイブリッド処理で解決しました。

  • Think (思考 / Diffusion):
    GPUの空き計算リソース(Compute Density)を活用し、未来のトークン(ドラフト)を並列に生成します。

  • Talk (発話 / AR):
    生成されたドラフトをARの仕組みで厳密に検証(自己検証)します。

高速化のカラクリ:Free Token Slots

具体的には、1回のフォワードパス(モデル実行)で「次のトークンの確定」と「最大16トークン先のドラフト生成」を同時に行います。

そして、下記のロジック(Shift-and-Check)で複数のトークンを一括で確定します。

入力(ドラフト):  確定済   [A]     [B]     [C]     [D]
                   ↓       ↓       ↓       ↓             (1回の推論で並列計算)
ARの出力(正解):   [A']    [B']    [C']    [D']     ....
入力したドラフト [A, B, C] と、出力された正解 [A', B', C', D'] を1つずらして比較する。

A == A' ? → OK(ドラフトAは正しい、1つ目確定)

B == B' ? → OK(ドラフトBは正しい、2つ目確定)

C == C' ? → OK(ドラフトCは正しい、3つ目確定)

D != D' ? → NG (ドラフトDは間違い!)

ここで打ち切り。以降は破棄してD'を採用 この場合は4トークンが一括で確定

GPUには、モデルの重みデータをメモリから転送している間に、計算コアが遊んでいる時間が発生します。TiDARはこれを 「Free Token Slots (計算の空き枠)」 と捉え、この隙間に拡散モデルによるドラフト計算を詰め込むことで、追加のレイテンシなし(ゼロコスト) で未来の予測を行います。

最終的にARモデルによる検証(Rejection Sampling)を通すため、品質はARモデルと同等を担保しつつ、並列生成による高速化の恩恵だけを受け取ることができます。

ベンチマーク結果

Qwenベースのモデルを用いた実験結果は以下の通りです。

  • スループット: ARモデル比で 4.71倍 (1.5B) 〜 5.91倍 (8B) の高速化。
    生成効率*: 1回の推論(NFE)で平均 7〜8トークン を採用(一発合格)。
    ^ 品質: 数学やコーディングタスクにおいてARモデルと同等のスコアを維持。

考察:ローカルLLMハードウェアへの影響

この技術は、**「計算力はあるがメモリ帯域が狭い」**ハードウェアにとって福音となります。

例えば、次世代のエッジデバイス Jetson Thor や、ワークステーション向けの DGX Spark (GB10搭載機) は、1000 TOPS級の高い演算性能を持ちながら、メモリ規格はLPDDR5X (帯域幅 273GB/s程度) を採用しています。

従来、これらのマシンはHBM搭載のサーバーGPUに比べて帯域幅がボトルネックとなり、LLMの生成速度が伸び悩む構造にありました。
単純にメモリ帯域に比例するので、M4 MAXよりも遅いと言われてます。

しかし、TiDARを用いれば「余っている計算力」を速度に変換できます。

TiDARを活用したモデルが主流になれば、高価なHBMメモリを搭載しないローカルPCやエッジデバイスでも、実用的な速度で巨大LLMを動かせる未来が来ると予想されます。


参考文献

3
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?