Drifting Modelsは拡散モデルを超えるのか？

Posted at 2026-02-10

大学生の皆さん、こんにちは！画像生成AIの世界は、いまや「綺麗に作れるのは当たり前、次はいかに速く、いかに効率よく作るか」というフェーズに突入しています。

Stable Diffusionなどの「拡散モデル」は最高に綺麗ですが、生成に時間がかかるのが玉にキズですよね。そんな中、**「推論は1ステップで爆速、なのに精度はSOTA（世界最高待機）」**という、ちょっと信じられないような新星が現れました。

その名も**「Drifting Models（ドリフティング・モデルズ）」**。今回は、このモデルがなぜこれまでの常識を覆しているのか、その背景と仕組みをガッツリ解説します。

1. 拡散モデルの「弱点」を「学習」で解決する

まず、背景を整理しましょう。

拡散モデル（Diffusion Models）: 推論（画像を作る時）に、ノイズを10回、50回と少しずつ取り除いていきます。**「推論時に分布を動かす」**ので、どうしても時間がかかります。
Drifting Models: 推論はたったの1回（1-step）。その代わり、**「学習時に分布を少しずつ動かす」**という逆転の発想をとっています。

「推論時の苦労を、学習時に全部肩代わりしてしまおう」という、いわば生成AI界の先行投資型モデルなんです。

Drifting Modelsの凄さを支えるのが、**ドリフト場（Drift Field）**という概念です。

数式で見ると難しそうですが、直感的には**「理想の自分（データ）への引力」と「今のダメな自分（生成物）への斥力」**のバランスです。

現在の生成サンプル、本物データの集合、今のモデルが生成したデータの集合があるとき、ドリフトは以下のように定義されます。

ここで重要なのがというカーネル関数です。これは「近くの点は重視し、遠くの点は無視する」というフィルターの役割をします。

この2つの力をカーネルで重み付けして平均をとると、「今いる場所から、どっちの方向にどれだけ動けば、より本物らしくなるか」という**修正ベクトル（ドリフト）**が導き出されます。

「本物と偽物を比べる」と聞くと、**GAN（敵対的生成ネットワーク）**を思い浮かべる人も多いでしょう。しかし、Drifting ModelsにはGANより優れた点があります。

比較項目	GAN (敵対的学習)	Drifting Models
学習の安定性	識別器が強すぎると勾配が消えて学習が止まる。	遠くのサンプルからも直接「引力」を受け取れるため、学習が止まりにくい。
生成速度	1ステップ（高速）	1ステップ（爆速）
性能	高い画質だが、学習がシビア。	ImageNet 256x256でSOTAを達成。

GANが「審判（Discriminator）の機嫌を伺いながら練習する」スタイルだとしたら、Drifting Modelsは「正しい方向へのガイドライン（ドリフト場）を見て、直接そこへ向かう」スタイル。だから迷いがないんです。

さて、ここまではキラキラした話ですが、AIを学ぶ皆さんに知っておいてほしい「現実」もあります。

** モードコラプスの懸念**
このモデルは「局所的な（近くの）ズレ」を重視します。そのため、データが複数のグループに分かれている（多峰性）場合、あるグループから別のグループへ移動することが難しく、似たような画像ばかり生成してしまう「モードコラプス」が起きやすいという弱点があります。

「質はめちゃくちゃ高いけど、バリエーションが少し偏るかも？」という特性があることは、しっかり押さえておきましょう。

「1ステップ生成なんて、手抜きじゃないの？」と思うかもしれません。しかし、実は**「近似のプロセス」**に秘密があります。

拡散モデルは推論時に少しずつ形を作る過程で、データの背後にある「本質」を捉えます。Drifting Modelsは、学習中に分布を少しずつ動かしていく過程で、この**「本質（汎化能力）」**を獲得していると考えられます。

つまり、**「ゆっくり変化するプロセス」をどこに置くか（学習時か、推論時か）**の違いであり、Drifting Modelsはその配置が非常に効率的だった、と言えるでしょう。

Drifting Modelsは、「速さ」と「質」の両立において、新しいマイルストーンを打ち立てました。

「画像生成は待つもの」という常識が、この技術によって過去のものになるかもしれません。