WassersteinGAN(WGAN)の起源と発展

Posted at 2024-04-29

WassersteinGAN

WassersteinGAN（WGAN）は、敵対的生成ネットワーク（GAN）の一種で、安定した学習を可能にするために提案された手法です。

WGANは、現在でも活発に研究が行われています。WGANの登場により、GANの実用化が大きく前進したと言えます。

WGANは、画像生成、画像変換、異常検知、ドメイン適応など、さまざまな分野で応用されています。また、自然言語処理や音声処理などの分野でも、WGANを用いた研究が行われています。

WassersteinGANの起源と背景は以下の通りです。

GANの登場と課題

2014年に敵対的生成ネットワーク（GAN）は提案され、生成モデルの研究に大きな影響を与えた
- しかし、GANには学習の不安定性、モード崩壊、評価指標の欠如などの課題がありました。

Wasserstein距離

WGANの提案

2017年、Martin Arjovsky, Soumith Chintala, Léon Bottouら、WassersteinGANが提案
- GANの損失関数をWasserstein距離に置き換えることで、学習の安定性と生成画像の品質を向上に成功
- WGANの登場以降、さまざまな派生モデルが提案される
  - 勾配ペナルティを用いたWGAN-GP、条件付き生成モデルのCTGAN、スペクトラルノルムを用いたSN-GANなど

WGANとGANの比較を以下の表にまとめました。

観点	GAN	WGAN
損失関数	識別器とジェネレーターはバイナリークロスエントロピー損失関数を使用	Wasserstein距離（Earth-Mover距離）を損失関数として使用
学習の安定性	学習が不安定になりやすく、モード崩壊が起こる可能性がある	学習が安定しており、モード崩壊が起こりにくい
識別器の制約	制約なし	識別器（critic）の出力を制限するために、重みのクリッピングや勾配ペナルティを適用
損失関数の解釈	損失関数の値と生成画像の品質の関係が不明確	損失関数の値が生成画像の品質を直接反映する
ハイパーパラメータの調整	ハイパーパラメータの調整が難しい	ハイパーパラメータの調整が比較的容易
評価指標	評価指標の定義が困難	Wasserstein距離そのものが評価指標として使用可能
理論的背景	理論的背景が比較的弱い	最適輸送理論、関数解析、力学系理論などの強力な理論的背景を持つ
派生モデル	CGAN, InfoGAN, ACGANなど	WGAN-GP, CTGAN, SN-GANなど

この表から、WGANはGANの抱える課題を解決し、学習の安定性、生成画像の品質、評価指標などの点で優れていることがわかります。また、WGANは強力な理論的背景を持ち、さまざまな派生モデルが提案されていることも特徴の一つです。

WGANの主要な派生モデルとその特徴を以下の表にまとめました。

WGANの基本的なアイデアを継承しつつ、識別器の制約の緩和、条件付き生成への拡張、距離尺度の変更、最適輸送問題の近似的な解法など、さまざまな改善を加えています。その結果、学習の安定性、生成画像の品質、多様性、学習速度などが向上し、WGANの応用範囲が拡大しています。

モデル名	主な特徴	改善点
WGAN-GP (2017)	勾配ペナルティを導入し、識別器の制約を緩和	重みのクリッピングが不要になり、学習が安定化
CTGAN (2018)	条件付き生成モデルにWGANを適用	クラス条件付きの生成が可能になり、応用範囲が拡大
SN-GAN (2018)	スペクトラルノルムを導入し、識別器の制約を緩和	勾配ペナルティが不要になり、学習が簡素化
WGAN-DIV (2019)	Wasserstein距離の代わりにKullback-Leibler divergenceを使用	生成画像の多様性が向上
MMDGAN (2019)	Wasserstein距離の代わりにMaximum Mean Discrepancyを使用	学習の安定性と生成画像の品質が向上
WGAN-QC (2019)	識別器の出力を二次関数で近似	学習の安定性と生成画像の品質が向上
RWGAN (2020)	Wasserstein距離の制約を緩和し、最適輸送問題を近似的に解く	学習が高速化し、大規模なデータセットに適用可能

WGANの派生モデルは、生成モデルの研究において重要な貢献をしており、今後もWGANを基礎とした新しいモデルが提案されることが期待されます。WGANは、生成モデルの発展に大きな影響を与え続けるでしょう。