Text-to-Image生成の進化：DDPMからStable Diffusion XLまで

Posted at 2026-02-28

はじめに

近年、AIによる画像生成技術は目覚ましい発展を遂げており、特にテキストから画像を生成する「Text-to-Image」モデルは、その表現力と多様性で多くの注目を集めています。本記事では、この革新的な技術の基盤を築いた主要なモデルであるDDPM（Denoising Diffusion Probabilistic Models）、LDM（Latent Diffusion Models）、そして広く利用されているStable Diffusionの各バージョン（1.5およびXL）について、その技術的な進化と特徴を解説します。

DDPM：拡散モデルの夜明け

DDPM（Denoising Diffusion Probabilistic Models）は、拡散モデルの基礎を築いた画期的な研究です [1]。その核心は、画像をノイズから段階的に生成するという逆転の発想にあります。

DDPMは、以下の二つのプロセスで構成されます。

順方向プロセス (Forward Process): このプロセスでは、元の画像にガウスノイズが少しずつ加えられ、最終的には完全にランダムなノイズ画像へと変換されます。この過程はマルコフ連鎖としてモデル化され、各ステップでのノイズの追加は既知の確率分布に従います。
逆方向プロセス (Reverse Process): DDPMの学習の主要な部分であり、ノイズから元の画像を復元するプロセスです。ニューラルネットワーク（主にU-Net）が、各ステップで加えられたノイズを予測するように学習されます。この予測されたノイズを用いて、ノイズ画像から一つ前のステップの画像を推定し、最終的にクリアな画像を生成します。

DDPMは高品質な画像を生成できる可能性を示しましたが、ピクセル空間で直接計算を行うため、計算コストが非常に高く、高解像度の画像生成には膨大なリソースと時間が必要という課題がありました。

LDM (Latent Diffusion Models)：効率化の革命

DDPMの計算コストの問題を解決するために登場したのが、LDM（Latent Diffusion Models）です [2]。LDMは、拡散プロセスをピクセル空間ではなく、より低次元の「潜在空間」で行うことで、計算効率を大幅に向上させました。

LDMの主要な技術要素は以下の通りです。

潜在空間 (Latent Space): VAE（Variational Autoencoder）のようなエンコーダを用いて、高次元の画像データを低次元の潜在表現に圧縮します。これにより、拡散モデルはより扱いやすいデータで学習・推論を行うことができます。
潜在空間での拡散: DDPMと同様の拡散プロセスが、この圧縮された潜在空間内で実行されます。ノイズの追加と除去が潜在表現に対して行われるため、ピクセル空間での処理に比べて計算量が格段に削減されます。
Cross-Attention: テキストプロンプトなどの条件付け情報を、U-Netの中間層に組み込むためのメカニズムです。これにより、生成される画像の内容をテキストで細かく制御することが可能となり、Text-to-Image生成の柔軟性が飛躍的に向上しました。

LDMの登場により、高解像度かつ高品質な画像生成がより現実的なコストで実現可能となり、その後のText-to-Imageモデルの発展に大きく貢献しました。

Stable Diffusion 1.5：標準モデルの確立

Stable Diffusion 1.5は、LDMの代表的な実装の一つであり、そのオープンソース性と高い性能から、Text-to-Image生成の分野で広く普及しました。

Stable Diffusion 1.5の主な特徴は以下の通りです。

学習データ: 大規模な画像-テキストペアデータセットであるLAION-5Bの一部を用いて学習されています。
基本解像度: 主に512x512ピクセルの画像を生成するように設計されています。
アーキテクチャ: LDMのフレームワークに基づき、以下の主要コンポーネントで構成されます。
- VAE: 画像と潜在空間の間の変換を担います。
- U-Net: 潜在空間におけるノイズ予測を行います。
- Text Encoder: OpenAIが開発したCLIPのViT-L/14モデルが使用され、テキストプロンプトを潜在表現に変換します。

Stable Diffusion 1.5は、個人ユーザーから研究者まで、幅広い層にText-to-Image生成の可能性をもたらし、その後のAIアートやデザインの発展に大きな影響を与えました。

Stable Diffusion XL (SDXL)：プロフェッショナルな品質へ

Stable Diffusion XL (SDXL)は、Stable Diffusion 1.5の後継として開発されたモデルであり、より高品質で多様な画像生成を目指して大幅な改良が加えられています [3]。

SDXLの主な進化点は以下の通りです。

モデルサイズの拡大: U-Netのパラメータ数がStable Diffusion 1.5の約3倍（2.6B）に増加し、より複雑な画像表現を学習できるようになりました。
Text Encoderのアンサンブル: テキストプロンプトの理解度を向上させるため、OpenAIのCLIP ViT-LとOpenCLIPのViT-bigGという二つの強力なText Encoderを組み合わせて使用しています。これにより、より詳細でニュアンス豊かなプロンプトに対応できるようになりました。
Micro-conditioning: 画像の生成品質と制御性を高めるための新しい条件付けメカニズムが導入されました。
- Original Size Conditioning: 学習画像の元の解像度を条件としてモデルに与えることで、様々な解像度の画像を効率的に学習し、低解像度画像の切り捨てによる品質劣化を防ぎます。
- Crop Conditioning: 学習時に使用されたクロップ位置の座標を条件として与えることで、推論時に被写体が不自然に切れることを防ぎ、構図の制御を向上させます。
Multi-aspect training: 様々なアスペクト比の画像を効率的に学習するために、「バケットサンプリング」という手法が導入されました。これにより、特定の解像度に限定されず、多様なアスペクト比の画像を高品質に生成できます。
Refinerモデル: Baseモデルで生成された潜在変数を入力として、さらに詳細なテクスチャや高周波成分を追加し、画像の品質を向上させる専用のRefinerモデルが導入されました。これにより、生成される画像のリアリティと視覚的な魅力が格段に向上しました。

これらの改良により、SDXLはStable Diffusion 1.5と比較して、より写実的で美しい画像、複雑な構図、そして正確なテキストレンダリング能力を実現し、プロフェッショナルな用途にも耐えうる品質を提供します。

まとめ：それぞれのモデルをどう使い分けるか

DDPMからSDXLに至るまで、Text-to-Image生成モデルは目覚ましい進化を遂げてきました。それぞれのモデルには異なる特徴と最適な用途があります。

モデル名	主要な特徴	メリット	デメリット	最適な用途
DDPM	ピクセル空間での拡散プロセス	拡散モデルの基礎、高品質な画像生成の可能性	高い計算コスト、高解像度化が困難	拡散モデルの基礎研究、小規模データセットでの実験
LDM	潜在空間での拡散プロセス、Cross-Attention	計算効率の向上、高解像度化、テキスト制御	DDPMよりは効率的だが、まだ改善の余地あり	Stable Diffusionなどの基盤技術、汎用的な画像生成
Stable Diffusion 1.5	LDMの代表的な実装、オープンソース、512x512	広く普及、豊富なコミュニティとリソース、手軽さ	SDXLに比べ品質や多様性で劣る、手や文字の苦手さ	個人利用、学習、初期段階のプロトタイピング
Stable Diffusion XL	大規模モデル、Text Encoderアンサンブル、Micro-conditioning、Refiner	高品質、高解像度、多様なアスペクト比、詳細な制御、文字生成能力向上	高いVRAM要求、推論速度（Refiner使用時）	プロフェッショナルなアート、デザイン、商用利用

参考文献

[1] Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. Advances in Neural Information Processing Systems, 33. https://arxiv.org/abs/2006.11239
[2] Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 10684-10695. https://arxiv.org/abs/2112.10752
[3] Podell, D., English, Z., Lacey, K., Blattmann, A., Dockhorn, T., Müller, J., ... & Rombach, R. (2023). SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis. arXiv preprint arXiv:2307.01952. https://arxiv.org/abs/2307.01952

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up