AICG(画像生成)の進化と最新動向 (ver. 20240726)

Last updated at 2024-07-26Posted at 2024-07-26

本記事はYoutubeチャンネルの論文解説動画（AIGC画像編）を時系列に繋げるための作成した記事です。サムネイル画像をクリックすると説明動画に飛びます

1. 初期のGAN時代 (2014年〜2017年)

　初期の画像生成AIは高品質で多様な画像生成に挑戦していました。2014年に提案されたGAN (2014) は、生成器と識別器を競わせる革新的なアプローチでこの問題に取り組みました。2015年のDCGAN (2015) は畳み込みニューラルネットワークを導入し、画像生成の品質と安定性を向上させました。2017年にはProgressive GAN (2017) が登場し、段階的な高解像度化を可能にしました。これらの進展は後の大規模画像生成モデルの基礎となりましたが、「モード崩壊」や学習の不安定性など、依然として多くの課題が残っていました。

2. スタイルベース生成とGANの進化 (2018年〜2020年)

　GANの進化により、より高度な画像生成と制御が可能になりましたが、生成画像の多様性と品質の向上が課題として残りました。2018年に登場したBigGAN (2018) は、大規模なモデルで高品質かつ多様な画像生成を実現しました。同年のStyleGAN (2018) はスタイルベースのアーキテクチャを導入し、特に顔画像生成で驚異的な品質を達成しました。2019年にはStyleGAN2(2019) がさらなる改良を加え、品質向上と学習の安定化を実現しました。この時期、GANは画像生成の主流となりましたが、依然として学習の不安定性や多様性の確保が課題として残っていました。

3. 拡散モデルの台頭 (2020年〜2021年)

GANの課題を克服するため、新たなアプローチとして2019年にSGM (2019) が提案されました。SGMは拡散モデルの理論的基盤を一般化し、この分野の研究を進展させました。続いて2020年にDDPM (2020)が提案されました。DDPMはノイズ除去過程を利用して高品質な画像生成を実現し、GANで問題となっていたモード崩壊や学習の不安定性を回避しました。これにより、より安定した学習と多様な画像生成が可能になりました。拡散モデルの登場で画像生成の安定性と品質が大幅に向上しましたが、生成速度の遅さや計算コストの高さといった新たな課題も浮上しました。


DDPM (2020)

4. テキストガイド付き生成モデルの基礎 (2021年)

　2021年は、テキストから画像を生成する技術が確立された重要な年です。この時期の主な課題は、言葉の理解と視覚的創造性をどう融合させるかでした。DALL-E (2021)の登場により、大規模な言語モデルと画像生成モデルを組み合わせて、テキストから多様で創造的な画像を生成できることが示されました。CLIP (2021)は、大規模なテキストと画像のペアデータセットを使って学習し、高精度でテキストと画像を関連付けることができました。　さらに、GLIDE (2021)は、テキスト条件付き拡散モデルの分野で大きな進展をもたらしました。このモデルは、分類器フリーガイダンス (CFG) とトランスフォーマーを使ってテキストと画像の整合性を向上させました。LDM (2021)も重要なモデルで、自己エンコーダの潜在空間で拡散プロセスを適用することで、高解像度画像の生成と計算効率の向上を実現しました。この概念は後にStable Diffusion (2022) として実装され、広く普及しました。　これらの研究は、自然言語処理と画像生成の融合を大きく前進させ、後のテキストガイド付き画像生成モデルの基盤となりました。同時に、生成された画像の品質、多様性、テキストとの整合性など、さらなる改善の余地も明らかになりました。


CLIP (2021)	LDM (2021)

5. テキストから画像生成の革新 (2022年〜)

　2022年から2023年にかけて、テキストから画像を生成する技術が飛躍的に進歩しました。Stable Diffusion (2022)、DALL-E 2 (2022)、Imagen (2022)などの強力なモデルが登場し、テキスト入力と生成画像の整合性が大幅に向上しました。これらのモデルは、大規模言語モデルの活用や潜在空間での拡散プロセスの採用など、新しいアプローチを導入しました。これにより、より自然で多様な画像生成が可能になり、ユーザーの意図をより正確に反映した画像を作成できるようになりました。2023年には、Midjourney V5 (2023)やStable Diffusion XL (2023) が登場し、より高解像度で高品質な画像生成が実現しました。これらのモデルは、細部の表現力や全体的な画質を大幅に向上させ、よりリアルで魅力的な画像を生成できるようになりました。同時に、Muse (2023) やeDiffi (2023) などのモデルは、高速で効率的な画像生成プロセスを実現し、実用化に向けた大きな一歩となりました。　さらに、DALL-E 3 (2023)やImagen 2 (2023)、Imagen 3 (2024)、Stable Diffusion 3 (2024)といった最新モデルの登場により、テキストから画像生成の品質がさらに向上しました。これらのモデルは、生成される画像の多様性と細部表現を強化し、より複雑なテキストプロンプトにも対応できるようになりました。　これらの進歩により、テキストから画像生成技術の応用範囲が大きく広がりました。アートやデザイン、広告制作、教育用教材の作成など、さまざまな分野での活用が期待されています。同時に、この技術の発展に伴い、著作権や倫理的な問題にも注目が集まっており、今後の課題として議論が続いています。


Imagen (2022)	SDXL (2023)	DALL-E3 (2023)	SD3 (2024)

6. 制御可能性の向上とパーソナライゼーション (2022年〜2023年)

　2022年から2023年にかけて、Stable Diffusion のような高性能なオープンソースモデルの登場を契機に、画像生成AIの研究は新たな局面を迎えました。テキスト入力と生成画像の整合性が飛躍的に向上したことで、研究の焦点は自由な画像操作と個人化へとシフトしました。主な技術は以下の6つに分類されます。

被写体駆動生成

　テキストで指定した物体を画像内に生成する技術です。従来、AIは「赤いリンゴ」のような具体的な指示には応えられても、「私の愛犬」のようなユーザー固有の概念を表現するのは困難でした。Textual Inversion (2022) は、新しい単語をAIに学習させることでこの課題を解決し、DreamBooth (2022)は少ないサンプル画像からでも多様なバリエーションの画像を生成できるようにしました。


Textual Inversion (2022)	DreamBooth (2022)

人物駆動生成

　高解像度・高品質な画像生成モデルの登場は、人物の細かな特徴や表情を表現することを可能にし、人物駆動生成技術を大きく発展させました。従来、人物のアイデンティティを保持しつつ多様な編集を加えることは困難でしたが、FastComposer (2023) は人物の特徴を維持しながら編集の自由度を高め、W+ Adapter (2023) は革新的な手法で人物画像をAIが解釈しやすい情報に変換することで、この課題を克服し、人物の特徴を維持しつつ、服装や背景を自由に変更できるようになりました。

スタイル駆動生成

　スタイル駆動生成は、例えば、「ゴッホ風」や「浮世絵風」といった特定の画風やスタイルを画像に反映させる技術です。従来、AIによる画風の模倣は限定的でしたが、StyleDrop (2023) はAIモデルの微調整により特定のスタイルを効果的に学習できるようにし、StyleAligned (2023) はAIのスタイル学習機構を改良することで、より忠実なスタイル再現を可能にしました。「ゴッホ風の猫」のような特定画風の適用が可能になりました。

相互作用駆動生成

　テキスト入力の理解度が飛躍的に向上したことで、相互作用駆動生成は大きく進展しました。この技術は、人物と物の複雑な関係性や相互作用を的確に捉え、画像生成に反映させることを可能にしました。Reversion (2023) は、従来困難だった人物と物の関係性の理解と操作を実現し、InteractDiffusion (2023) は人間と物の自然な関わり方をAIに学習させることで、生成画像のリアリティを新たな次元へと引き上げました。「犬とフリスビーで遊ぶ少年」のような複雑な相互作用を含む場面の表現が格段に向上し、より自然で説得力のある画像生成が可能になりました。

空間制御

　高品質な画像生成技術の進展は、画像内の物体や要素の配置、大きさ、形などを制御する「空間制御」の分野にも革新をもたらしました。従来は困難だった複雑な空間構成の表現が可能になり、ControlNet (2023) はAIに多様な条件を与えて画像を精密に制御する道を切り拓きました。一方、GLIGEN (2023) は、専門的な知識を必要としない日常的な言葉で、誰もが直感的に画像生成を指示できる新たな可能性を提示しました。「テーブルの左に猫、右に犬」のような詳細な空間指定が可能になりました。


ControlNet (2023)

その他

　画像生成の制御と個人化においても、多様な技術革新が見られました。IP-Adapter (2023) は、画像を直接入力として利用することで、テキストだけでは表現しきれないニュアンスや構図をAIに伝える新たな手法を確立しました。また、Instantbooth (2023) は、AIモデルの再学習を必要とせず、個人の好みに合わせた画像生成を可能にし、パーソナライゼーションの敷居を大幅に下げました。

これらの技術は相互に影響し合い、急速に発展しています。しかし、著作権問題や倫理的課題、計算コストの高さなど、解決すべき問題も残されています。今後は、これらの課題に対応しつつ、よりインタラクティブで直感的な画像生成システムの開発が期待されています。

7. 効率化と高速化 (2023年〜)

　2023年以降、画像生成AIの研究は効率化と高速化に重点が置かれるようになりました。SDXL Turbo (2023)は1ステップで高品質な画像生成を可能にし、Consistency Models (2023)は拡散モデルの学習と推論を高速化する新しいアプローチを提示しました。LoRA (2021)の発展により、モデルの軽量化と効率的な微調整が可能になり、DragGAN (2023)のような技術は生成された画像のインタラクティブな編集を実現しました。　また、k-diffusion (2022)やEfficient Diffusion (2023)は生成ステップ数を削減することで高速化を達成し、Flash Diffusion (2024)は知識蒸留 (2015)や敵対的学習などを組み合わせ、少ないパラメータと短いステップ数で高品質な画像生成を実現しました。これらの技術革新により、リアルタイムに近い画像生成と編集が可能になり、AIの実用性が大きく向上しました。