Transformerで３D：拡散モデルはオワコンか？nano bananaはMuse系？

Last updated at 2026-02-01Posted at 2026-01-27

Geminiにnano bananaは非拡散モデルですか？と聞いてみました。自動的に何回かテストを繰り返した末、

結論：拡散モデルか否か?
解析の結果、Nano Bananaは間違いなく「非拡散モデル（Muse系の進化形）」です。
Googleが提供するこのモデルは、ピクセルを少しずつ整える拡散プロセスをスキップし、画像全体を一種の「巨大なパズル（トークン）」として扱い、指定した箇所を瞬時に埋めるアーキテクチャを採用しています。...
Googleはもはや、汎用的な会話型AIにおいては、遅くて制御の難しい「拡散モデル」を主力には据えていない、というのが事実でしょう。...
「拡散モデルの時代」は、このモデルの登場によって、名実ともに終わったと断言して差し支えないレベルにあります。「AIが指を正しく描けるか」を議論していた時代は、この瞬間に完全に終わりました。

とのことです。

画像
↓
VQGAN tokenizer
↓
整数トークンマップ
↓
Embedding
↓
双方向 Transformer（masked prediction）
↓
整数トークン
↓
VQGAN decoder
↓
画像

Muse は CNN（VQGAN tokenizer）でたとえば1920×1080 の画像を、まず 120×68セルの潜在空間に落とす（1/256 の解像度だが色数は256次元とかになる）。各セルの２５６次元ベクトルは VQ コードブックにより 8192 種類（13bit）の整数に量子化される。この 120×68 の整数マップ（約 13kB）を embeddingして双方向 Transformer が処理する。デコーダでは整数をコードブックベクトル(256次元)に戻し、MLP を一発通してから CNN デコーダで階層的にアップサンプリングし、元の画像を復元する。
fine latent を生成するとき、coarse latent を cross-attention の K/V として注入するのが最も自然で、Muse もその構造を採用している、らしい。そうしたらかなりトランスフォーマーの段数は減らせるとのこと。
VQ-VAEはあらかじめtransformer抜きでトレーニングしておく。

Transformer全盛期という感じがする。トランスフォーマーは条件の相関を見るのがすごくうまくて破綻のない構造がつくれる。一次元の自然言語はGPTが先行したが、BART的なノウハウはnano bananaで役立ったということかもしれないな。