NVIDIAの拡散＋自己回帰ハイブリッドLLM　TiDARについて

Posted at 2025-11-23

【論文読み】NVIDIA TiDAR: 拡散モデルと思考し、自己回帰で語る (arXiv:2511.08923)

はじめに

NVIDIAから2025年11月に発表された論文 TiDAR: Think in Diffusion, Talk in Autoregression (arXiv:2511.08923) が、ローカルLLM界隈で大きな話題になりそうです。

既存のLLMの課題である推論速度を、拡散モデルとのハイブリッド化で解決する手法について、技術的な仕組みとハードウェアへの影響をまとめました。

＊Gemini Pro3 に論文見てもらって会話してまとめてました。間違いあったらごめんなさい。

背景：なぜ拡散モデルなのか？

現在の主流である自己回帰 (Auto Regressive: AR) モデルは、1トークンずつ順番に生成する仕組み上、メモリ帯域幅に律速（Memory Bound）されやすく、GPUの計算能力を使い切れないという課題があります。

これに対し、Mercury や Llada のような 拡散 (Diffusion) 言語モデル は、複数トークンの並列生成が可能なため高速ですが、ARモデルと比較して品質面で劣る、あるいは並列数を増やすと精度が下がるというトレードオフがありました。

TiDARのアーキテクチャ

TiDARは、このトレードオフを単一モデル内でのハイブリッド処理で解決しました。

Think (思考 / Diffusion):
GPUの空き計算リソース（Compute Density）を活用し、未来のトークン（ドラフト）を並列に生成します。
Talk (発話 / AR):
生成されたドラフトをARの仕組みで厳密に検証（自己検証）します。

高速化のカラクリ：Free Token Slots

具体的には、1回のフォワードパス（モデル実行）で「次のトークンの確定」と「最大16トークン先のドラフト生成」を同時に行います。

そして、下記のロジック（Shift-and-Check）で複数のトークンを一括で確定します。

入力（ドラフト）:  確定済   [A]     [B]     [C]     [D]
                   ↓       ↓       ↓       ↓             (1回の推論で並列計算)
ARの出力(正解):   [A']    [B']    [C']    [D']     ....

入力したドラフト [A, B, C] と、出力された正解 [A', B', C', D'] を1つずらして比較する。

A == A' ? → OK（ドラフトAは正しい、1つ目確定）

B == B' ? → OK（ドラフトBは正しい、2つ目確定）

C == C' ? → OK（ドラフトCは正しい、3つ目確定）

D != D' ? → NG (ドラフトDは間違い！）

ここで打ち切り。以降は破棄してD'を採用　この場合は4トークンが一括で確定

GPUには、モデルの重みデータをメモリから転送している間に、計算コアが遊んでいる時間が発生します。TiDARはこれを 「Free Token Slots (計算の空き枠)」 と捉え、この隙間に拡散モデルによるドラフト計算を詰め込むことで、追加のレイテンシなし（ゼロコスト） で未来の予測を行います。

最終的にARモデルによる検証（Rejection Sampling）を通すため、品質はARモデルと同等を担保しつつ、並列生成による高速化の恩恵だけを受け取ることができます。

ベンチマーク結果

Qwenベースのモデルを用いた実験結果は以下の通りです。

スループット: ARモデル比で 4.71倍 (1.5B) 〜 5.91倍 (8B) の高速化。
生成効率*: 1回の推論（NFE）で平均 7〜8トークン を採用（一発合格)。
^ 品質: 数学やコーディングタスクにおいてARモデルと同等のスコアを維持。

考察：ローカルLLMハードウェアへの影響

この技術は、**「計算力はあるがメモリ帯域が狭い」**ハードウェアにとって福音となります。

例えば、次世代のエッジデバイス Jetson Thor や、ワークステーション向けの DGX Spark (GB10搭載機) は、1000 TOPS級の高い演算性能を持ちながら、メモリ規格はLPDDR5X (帯域幅 273GB/s程度) を採用しています。

従来、これらのマシンはHBM搭載のサーバーGPUに比べて帯域幅がボトルネックとなり、LLMの生成速度が伸び悩む構造にありました。
単純にメモリ帯域に比例するので、M4 MAXよりも遅いと言われてます。

しかし、TiDARを用いれば「余っている計算力」を速度に変換できます。

TiDARを活用したモデルが主流になれば、高価なHBMメモリを搭載しないローカルPCやエッジデバイスでも、実用的な速度で巨大LLMを動かせる未来が来ると予想されます。

参考文献

TiDAR: Think in Diffusion, Talk in Autoregression (arXiv:2511.08923)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

NVIDIAの拡散＋自己回帰ハイブリッドLLM TiDARについて