BourGAN: Generative Networks with Metric Embeddings
-
Xiao et al, 2018,
-
GANのmode collapseを回避するために,latent vectorを学習データのBourgain embeddingから作成したGaussian mixtureからサンプルする
- Generatorのlatent vectorは通常,多変量ガウス分布からサンプルされている.その場合学習データのmodeをカバーできない,またはどのmodeにも属さないサンプルが生成されることがある
-
個人用メモ.数式と図が抜けています.
abst
- GANのmode collapseを扱う.
- モデルはデータ分布の計量空間での幾何的構造であると見れる.
- この観点で,データのペアごとの距離分布を維持しながら,任意の計量空間からl2空間へデータセットの部分集合を埋め込む
- この計量は潜在空間の次元数を自動で決めるだけでなく,ガウス混合分布を構成できる.潜在空間のランダムベクトルをサンプルするために
- そのガウス混合分布をシンプルなGANの訓練の目的関数の拡張とともに使用する.
- 本手法のすべての主要なステップは理論的な解析にサポートされている.
- 実験はGがmodeの殆どをカバーし,ほしくないサンプルを避けることを確認でき,
- いくつもの観点で近年のGANをしのいでおり
- 新しい特徴を提供する
- 実験はGがmodeの殆どをカバーし,ほしくないサンプルを避けることを確認でき,
6. conclusion
- mode collapseを解決するべくBourGANを導入した
- 従来の手法と対象で気に,潜在空間ベクトルをgaussian mixtureを使ってを使ってサンプルしたが,これはmetric embeddingを通して構成される.
- 理論的解析と実験にサポートされ,本手法は潜在空間とmulti-modalなデータ分布との間のwell-posedなmappingを可能にする
- 将来的には,embeddingとgaussian mixture サンプリングは他のGANとも組み合わせられるし,他の生成モデルでも活用できる
1. intro
- GANはDeep 生成モデルの訓練で最も広く使われている
- GANの最適化は難しく,[2][3][4][5][6][7][8],最も目立った問題はmode collapseであり,
- これは複数のmodeのある分布を学習したときに,modeのsubsetのみしか生成できない問題である
- 言い換えれば,生成サンプルは真のデータのような多様性を欠いている,entropyのずっと低い分布しか生成しない
- GANの最適化は難しく,[2][3][4][5][6][7][8],最も目立った問題はmode collapseであり,
- 本手法は2つの性質を問うことでこの問題に迫る
-
- よく使われるGのためにランダムベクトル生成する多変数ガウス分布について
- modeが別れている場合,一つのガウスからランダムvectorをサンプルすると,Gのgradientが任意に大きくなる可能性があり,
- よりよい方法はガウス混合分布を用いることであることを示す.
-
- mode の幾何的な解釈を考え,データ分布のmodeは特定の距離metricで見るべきと議論する.
- 異なるmetricは異なるmodeの分布につながり,適切なmetricは解釈しやすいmodeになる.
- この観点から,一般的な計量空間においてmode collapse の問題を解決する
- 近年の試み[3, 9, 10, 6, 11, 12]にもかかわらず,どちらの観点も試されていない
-
技術的貢献
-
いかなる計量空間でもmode collapseを避ける,GANの拡張であるBourGANを導入する.
- 既存の解決法との著しい違いは,BourGANはrandom vectorを低次元潜在空間からGAussian mixtureをサンプルすること.
- gaussian mixture は与えられたデータセットのmode構造を反映するように構成される.与えられた距離metricの元で.
- construction algorithmを計量埋め込み理論から導出した.Bourgain Theorem[13]という.
- metric embedding 理論の使用が健全であるだけでなく,大きな利点を実践的にもたらす.
- 計量埋め込みはl2潜在空間の中のmode構造を保持できる.
- データセット中のmodeを測るのに使われるmetricとは無関係に
- 既存の解決法との著しい違いは,BourGANはrandom vectorを低次元潜在空間からGAussian mixtureをサンプルすること.
-
次に,潜在空間でのガウス混合分布のサンプリングはGANの最適化を簡単にする,
- また潜在空間のユーザ特有の次元(?)を仮定する既存のGANとは異なり,本手法は自動的に潜在空間の次元数を決定できる.与えられたデータセットで
-
構成されたガウス混合分布をmode collapseを解決するために利用するため,シンプルなGAN目的関数の拡張を提案する.
- (潜在空間でのランダムベクトルペアごとのl2距離が,その軽量空間での生成データサンプルの距離とマッチするようにする)
- つまり,ガウシアンmixtureの幾何的な構造は生成サンプルに準拠していることになる.
-
非自明な理論的解析を通して,BourGANが完全に最適化され,その生成サンプルの対数ペアワイズ距離分布が真のデータ点の対数ペアワイズ距離分布とマッチすることを示す.
- 合成,リアルデータセット両方について本手法の効率性を示す.
- いくつかの既存GANを凌ぐ,生成データの多様性において
- 特に,本手法は複数の分離したmodeがあるデータ分布に対してrobustである
- これは実験したすべての既存のGANが望ましくないサンプル(どのmodeにも属さない)を生成したchallengingな問題である
- 本手法はすべてのmodeをカバーし,望ましくないサンプルは避けて生成できる
- 特に,本手法は複数の分離したmodeがあるデータ分布に対してrobustである
- いくつかの既存GANを凌ぐ,生成データの多様性において
- 合成,リアルデータセット両方について本手法の効率性を示す.
2. related work
GANs and variants
- unsupervisedにおける生成モデルのゴールは未知の分布Xに従うサンプルを,Xからサンプルされたラベルなしの集合{x_i}_ {i=1}^nから学習することで,生成すること.
- 近年,GANは生成モデル訓練で注目されている
- GANはNNのGで,標準分布Z(例えばガウス,または一様分布)からサンプルされた低次元潜在ベクトルz in R^dを,興味の対称の空間でのデータ点(自然画像やtext)を生成するためにmapする.
- GはDとともに(1)のminmax最適化を解くことで訓練.
- 最初GANは局所的にはapplicableだが大域的にはincoherentな画像を生成し,それから改善
- GはDとともに(1)のminmax最適化を解くことで訓練.
- DCGANは生成サンプルを改善するため経験的に設計されたアーキテクチャ
- infoGAN[14]は潜在空間の解釈可能な表現を学習できる
- conditional GAN[15]は追加のsupervised labelを使ってリアルな結果を生成
- GANはNNのGで,標準分布Z(例えばガウス,または一様分布)からサンプルされた低次元潜在ベクトルz in R^dを,興味の対称の空間でのデータ点(自然画像やtext)を生成するためにmapする.
- 近年,GANは生成モデル訓練で注目されている
困難への対処
- GANは訓練が困難.
- 目的関数を変えて安定化する[24, 4, 25, 26, 27, 28]
- feature-matching (Salimans et al. [3])
- 生成サンプルをlatent vectorsに戻す追加ネットワーク[5,6,29]
- mode collpse
- MNISTの場合,各数字はデータ分布のmodeを表しているが,Gはすべての数字を生成できないことがある.
- 目的関数変更[4,12], ネットワーク構成[9,5,11,10,31]が提案されている
- 経験的には評価されているが,理論的に,なぜ,どのくらいこれらが有効なのかは不足している.
- PacGAN [11] が数学的なmode collapseの定義を導入した
- 潜在空間の構成について考えた研究は少ない
- VAE-GAN[29]はVAEで潜在空間構成, GLO[32]はGと潜在空間表現をデータサンプルを使って同時に最適化
- どちらも多変量ガウス分布からランダムベクトルをサンプルしている
- VAE-GAN[29]はVAEで潜在空間構成, GLO[32]はGと潜在空間表現をデータサンプルを使って同時に最適化
- MNISTの場合,各数字はデータ分布のmodeを表しているが,Gはすべての数字を生成できないことがある.
以前の手法との違い
- 潜在空間からサンプルするのにGaussianを使う代わりに,metric embeddings を使って構成されたGaussian mixtureを使う.(metric embeddingsは[33,34,35]を参照)
- 潜在空間の次元数が事前にわからなければならない従来の手法と異なり,本アルゴリズムは真のデータから自動的に次元数を決定する.
- さらに,どんな距離metricでも組み込むことができ,適切なmetricsを解釈可能なmodeの学習に使うという柔軟性がある
- 理論的な背景がある
- さらに,どんな距離metricでも組み込むことができ,適切なmetricsを解釈可能なmodeの学習に使うという柔軟性がある
- 潜在空間の次元数が事前にわからなければならない従来の手法と異なり,本アルゴリズムは真のデータから自動的に次元数を決定する.
3. Bourgain GAN
- BourGANのアルゴリズムを導入する.根拠の説明から始める
根拠と概要
-
データセットのmodeを特定の距離metricで埋め込まれた幾何的構造と考える.
- 例えば,MNISTではピクセルごとのl2距離では2つのmodeしか現れない:
- 1の画像は1のmode,一方他の数字はもう一つのmode.
- classifier distance metricでは,10個のmodeがあり,それぞれ異なる数字に対応する
- 結果として,modeは解釈可能
- 例えば,MNISTではピクセルごとのl2距離では2つのmodeしか現れない:
-
本研究では mode collpaseを扱うときいかなる距離でも組み込めることを狙い,特定のmetricの選択はユーザに任せる
-
データ分布に複数の別れたmodeがある時,潜在空庵にあるGaussian random 変数からデータ分布へのmappingは基本的にill-posedである
- 図1に示すとおり,このmappingはGに任意の大きさの勾配を課すことになり,Gの訓練は不安定になる[37]
-
自然な選択はガウス混合分布.混合分布が与えられたデータセットのmode構造を反映できる限り,mappingの問題はwell-posedになる
- この目的で,メインアイデアはmetric embeddingsを使う.
- データ点をいかなるmetricのもとでも低次元l2空間にmapできるようなmetric embedding.
- bounded pairwise distance distortionを使う
- データ点をいかなるmetricのもとでも低次元l2空間にmapできるようなmetric embedding.
- embeddingのあと,l2空間にガウス混合分布を構成する,データ点間の距離metricとは無関係に
- このプロセスで,潜在空間の次元数は自動的に決定される
- この目的で,メインアイデアはmetric embeddingsを使う.
-
embeding アルゴリズムは,Bourgainの理論に基づき,データ点のペアごとの距離を計算する必要があるが,それはO(n^2)の複雑さである.nはデータ点の数.
- nが大きい時,metric embeddin の計算コストをへらすために,m個のデータを最初に一様にサンプルする
- subsamplingのステップは理論的に健全である:
- mが十分に大きい時,しかしnよりも小さい時,データ点の幾何的構造(ペアごとの距離分布)はsubsampleにおいて保存される
- subsamplingのステップは理論的に健全である:
- nが大きい時,metric embeddin の計算コストをへらすために,m個のデータを最初に一様にサンプルする
-
最後に,BourGANの訓練で,潜在空間ガウス混合分布に埋め込まれた幾何的構造がGによって保存されることをencourageする.
- それによって,datasetのmode構造はGによって学習される
- これはGANの目的関数をペアごとの距離分布の保存を可能にするように拡張することで行う.
- それによって,datasetのmode構造はGによって学習される
3.1 metrics of distance and Distributions
- データ分布の幾何的構造を具体的にする論理的ツールを導入する.本提案と,続く論理的な解析をわかりやすくする
- [n]は集合{1,2,...,n}, R_{>=0}は非負の実数の集合,log(.)はlog_2(.)を表すとする
metric space
- 計量空間は(M, d)で記述され,Mは集合でd:MxM -> R_{>=0}は距離関数.
- すべてのx,y,z in Mについて次を満たす
- d(x, y) =0 ならばx =y,
- d(x, y) = d(y, x)
- d(x, z) <= d(x, y) + d(y, z)
- もしMが有限集合なら,(M, d)は有限計量空間.
- すべてのx,y,z in Mについて次を満たす
Wasserstein-1 distance
- wasserstein-1距離は,EM距離としても知られ,2つの分布の類似度を量化する距離.
- W(P_a, P_b) = inf_{\gamma in \pi(P_a, P_b)} E_{(x,y) \propto \gamma} (|x-y|),
- ここでP_aとP_bは2つの実数上の分布
- \Pi(P_a, P_b)は2つの実数上にある,周辺分布がP_a,P_bであるすべての結合分布\Gamma(x,y)の集合
- ここでP_aとP_bは2つの実数上の分布
- wasserstein-1距離は,GANの目的関数を拡張して訓練の安定性の改善に使用された[9]
- 本手法の論理的理解のために用いる
- W(P_a, P_b) = inf_{\gamma in \pi(P_a, P_b)} E_{(x,y) \propto \gamma} (|x-y|),
対数 pairwise distance 分布(LPDD)
-
データ点のペアワイズ距離分布をデータセットのmode構造を反映するのに使う.
- ペアワイズ距離は特定のmetricで測定されるので,その分布もまたmetricの選択に依存する.
- unroled GANがmode collapseをどのくらい改善するか量化するために[9]で使用された
- ペアワイズ距離は特定のmetricで測定されるので,その分布もまたmetricの選択に依存する.
-
計量空間(M, d)があって,XがM上の分布とし,(lambda, Lambda)が0 < 2lambda <= Lambdaを満たす2つの実数とする.
- Xから独立にサンプルされるx, y2つのサンプルを考える.
- etaをxとyの対数距離とする(eta = log(d(x, y))).
- d(x,y) in [lambda, Lambda]で条件付けられた etaの分布を分布Xの (lambda, Lambda)- 対数ペアワイズ距離分布(LPDD)
- (距離の値がboundされているということ)
- 本論文のいたるところで分布のLPDDがwasserstein-1距離で測定される
- d(x,y) in [lambda, Lambda]で条件付けられた etaの分布を分布Xの (lambda, Lambda)- 対数ペアワイズ距離分布(LPDD)
- etaをxとyの対数距離とする(eta = log(d(x, y))).
- Xから独立にサンプルされるx, y2つのサンプルを考える.
-
remark
- 2つのペアワイズ距離分布を比較するために対数距離を選んだ.
- 根拠は付録の図6
- 対数距離はGANの訓練にもメリットがあり,3.4章で明らかになる.s
- 上の(lambda, Lambda)の値は理論的な厳密さのためであり,実際の実装とは関係ない.
- これらは2つのサンプルが同一であり,対数を取る意味がないという理論的な状況を避けるためである
- この章ではこれらの値を飛ばして良い.理論的解析を読むときに参照せよ
- 2つのペアワイズ距離分布を比較するために対数距離を選んだ.
3.2 前処理:データ点のサブサンプル
-
未知の分布X(n個のデータ)からm個の点をサンプルする.
- nが大きいときは計算コスト削減のために重要
- Xからサブサンプルされたデータ集合をYとする
- Yの要素はl2空間に埋め込まれる
-
データ分布Xの(lambda, Lambda)-LPDDをPとする,Y上の一様分布のLPDDをP'とする
- それらのwesserstein-1距離 W(P, P')はmが十分に大きく,nよるはちいさければタイトにboundされる
- つまり真のデータのmode構造がYを考えるだけで捉えることができる.
- 実際にはmは自動的に単純なアルゴリズムで選ばれる.本論の例ではm=4096
- それらのwesserstein-1距離 W(P, P')はmが十分に大きく,nよるはちいさければタイトにboundされる
3.3 潜在空間にガウス混合分布を構成する
- Yからデータ点をl2空間に埋め込む.
- 潜在ベクトルの次元数は小さくなってほしい.
- mode構造は反映してほしい
- ゆえにデータ点のペアワイズ距離の歪みは最小限に抑えることをembeddingに要求する
- そのためにBourgainの埋め込み定理を利用したアルゴリズムを提案する
- ゆえにデータ点のペアワイズ距離の歪みは最小限に抑えることをembeddingに要求する
- mode構造は反映してほしい
- 潜在ベクトルの次元数は小さくなってほしい.
metric embeddings
- Bourgain[13]はいかなる有限のmetric spaceでも小さいl2空間に最小の歪みで埋め込める方法を導入した.
theorem 1(Bourgain's theorem)
- 有限計量空間(Y, d)を考える.m=|Y|である.あるk= O(log^2 m)について,あるmapping g: Y -> R^k が存在する
- これはすべてのy, y' in Yについて d(y, y') <= ||g(y) - g(y')||_ {2} <= alpha * d(y, y')を満たす
- ただしalphaはalpha <= O(log m) を満たす定数
- (Yの要素を写像したもの同士のl2ノルムが,写像前の距離と,写像前の距離の定数倍で抑えられる)
- ただしalphaはalpha <= O(log m) を満たす定数
- 写像gはBourgain[13]のrandomized algorithmで構成する.
- Bourgainの定理を直接適用し,潜在空間はO(log^2 m)の次元数になる
- 次の補題で,さらにO(log m)まで次元数をへらすことができる
- これはすべてのy, y' in Yについて d(y, y') <= ||g(y) - g(y')||_ {2} <= alpha * d(y, y')を満たす
corollary2(improved Bourgain embeding)
-
m=|Yの有限計量空間(Y, d)を考える.
- あるk=O(log m)について写像f:Y -> R^k が存在する
- すべてのy,y' in Yについて, d(y, y') <= ||f(y) - f(y')||_ 2 <= alpha * d(y, y')を満たす
- alpha はalpha <= O(log m)を満たす定数
- すべてのy,y' in Yについて, d(y, y') <= ||f(y) - f(y')||_ 2 <= alpha * d(y, y')を満たす
- あるk=O(log m)について写像f:Y -> R^k が存在する
-
証明は付録B.この補題はtheorem1とJohnson-Lindenstrauss(JL) lemma[38]を組み合わせて得られる
- 写像fはBourgainの定理のアルゴリズムとJL lemmaの組み合わせで計算される
- このアルゴリズムは付録Aに.
- 写像fはBourgainの定理のアルゴリズムとJL lemmaの組み合わせで計算される
-
remark
- Bourgain embeddingの代わりに,半正定計画問題を解いて有界なdistortion である写像f:Y -> R^k をみつけることもできる
- すべてのy, y' in Yについて,d(y, y') <= ||f(y) - f(y')|||_ 2 <= alpha * d(y, y')
- この手法は埋め込みを最小の歪みalpha で埋め込むことができる
- Bourgain embeddingを計算するより半正定計画問題のほうがずっと計算コストが高い.
- 最適な歪みalphaが見つかったとしても,なおO(log m)にすぎない.
- Bourgain embeddingは最悪のケースでも最適である
- 最適な歪みalphaが見つかったとしても,なおO(log m)にすぎない.
- Bourgain embeddingを計算するより半正定計画問題のほうがずっと計算コストが高い.
- この手法は埋め込みを最小の歪みalpha で埋め込むことができる
- すべてのy, y' in Yについて,d(y, y') <= ||f(y) - f(y')|||_ 2 <= alpha * d(y, y')
- Bourgain embeddingの代わりに,半正定計画問題を解いて有界なdistortion である写像f:Y -> R^k をみつけることもできる
-
写像fを使って,Yからk=O(log m)次元のl2空間にデータ点を埋め込む.
- FがR^kにおける結果のベクトルのmultisetとする.F={f(y_i)_ {i=1}^m}
- 真のデータ分布Xの(lambda, Lambda)-LPDDとFの一様分布のそれとのwasserstein-1距離はタイトにboundされる.
- リアルデータのmode構造はl2空間のFでよく捉えられるということ
- 真のデータ分布Xの(lambda, Lambda)-LPDDとFの一様分布のそれとのwasserstein-1距離はタイトにboundされる.
- FがR^kにおける結果のベクトルのmultisetとする.F={f(y_i)_ {i=1}^m}
潜在空間ガウス混合
-
Fを使ってランダムベクトルをサンプルするための分布を作る.
- シンプルな選択はFから一様分布をとる
- が,そのような分布は潜在空間全体で連続ではない.
- 代わりに,mixture of gaussiansを作り,その各(要素が?)がベクトルf(y_i)を中心とする
- 特に,潜在ベクトルz in R^k を2ステップで作る
- ベクトルmu in Fをランダムに,一様にサンプルする
- ベクトルzをgaussian N(mu, sigma^2)からサンプルする
- sigmaはスムージングパラメタ
- 実際には,sigmaは経験的にsigma = 0.1にした.
- sigmaはスムージングパラメタ
- 特に,潜在ベクトルz in R^k を2ステップで作る
- 代わりに,mixture of gaussiansを作り,その各(要素が?)がベクトルf(y_i)を中心とする
- が,そのような分布は潜在空間全体で連続ではない.
- シンプルな選択はFから一様分布をとる
-
remark
- m個のgaussianからなる混合分布を使ってもm個のモードを定義したとは限らない.gaussianの中心が近すぎれば1つのmodeに見える
- m個のモードではなく,全体の分布を定義している
- m個のgaussianからなる混合分布を使ってもm個のモードを定義したとは限らない.gaussianの中心が近すぎれば1つのmodeに見える
3.4 training
- 潜在空間におけるガウス混合分布ZはZのLPDDがターゲット分布の(lambda, Lambda)-LPDDに近づくことを保証している.
- この性質をmode collapseの阻止に利用するため,GがZにおける潜在ベクトルのペアワイズl2距離と,生成サンプルのペアワイズ距離をマッチさせられるように推奨する.
- GANの目的関数を(2), (3)のように変更することで実現される
- もとのGANの目的関数にbeta L_distを足す (2)
- L_dist(G)=期待値((生成サンプル同士の距離- log(潜在空間でのl2距離))^2) (3)
- logを用いる利点は
- 外れ値のmodeがあったときに,logは目的関数への影響を低減する
- 対数は距離metricの一定尺度を定数の加数に変換しますが、これは最適化には影響しません(?)
- mode の構造は一様のスケール変更の影響を受けないので,これは望ましい
- 理論的解析が簡単になる.4章で,(3)を最適化すると,生成サンプルの分布が真のXに似ることをしめす.つまり,mode collapse が回避される
- (mode dropping は回避されるだろうが,mode collapseが回避できるとは限らないのでは? mode collapseは同じ画像だけ作ってればDが真と判断してくれる状況で発生するので,多様な分布をGが生成する能力があったとしても,それだけでは1種類だけの生成を回避できるとは限らないはず.)
- logを用いる利点は
- GANの目的関数を(2), (3)のように変更することで実現される
- この性質をmode collapseの阻止に利用するため,GがZにおける潜在ベクトルのペアワイズl2距離と,生成サンプルのペアワイズ距離をマッチさせられるように推奨する.
- 実際には,yとf(y)の対応関係を使った事前訓練が,訓練の安定性を上げる.付録C.
4. theoretical analysis
- データ分布Xの仮定を置く:
- 独立にaとbというサンプルを取り出したら,1/2より大きい確率でそれらは区別できる(Pr_{a,b}(a neq b) >= 1/2)
ペアワイズ距離の範囲
- (;)LPDDの定義.
- multiset Xは入力データで,\chiからi.i.dにサンプルされる
- \chiからのサンプル間の距離が[lambda, Lambda]に高確率で収まるようなラムダの値を見つけたい
- \chiのLPDDを考える時,[lambda, Lambda]の範囲のペアワイズ距離しか考えないから,対数をとってもwell definedである
- 次の定理に従って各ラムダの値を取る.証明は付録G2
- \chiのLPDDを考える時,[lambda, Lambda]の範囲のペアワイズ距離しか考えないから,対数をとってもwell definedである
- \chiからのサンプル間の距離が[lambda, Lambda]に高確率で収まるようなラムダの値を見つけたい
- multiset Xは入力データで,\chiからi.i.dにサンプルされる
定理3
- lambda = min_{i in [n-1]: x_i neq x_{i+1}} d(x_i, x_{i+1}) と,Lambda = max_{i in [n-1]}d(x_i, x_{i+1})とする(サンプル間の距離の最小と最大)
- すべてのdeltaと, gamma in (0, 1)について,十分に大きい定数C についてn >= C/(delta gamma) なら,少なくても1-deltaの確率で,Pr_{a,b sim \chi}(d(a,b) in [lambda, Lambda]| lambda, Lambda)>=Pr_{a,b sim \chi}(a neq b) -gamma
- (1-deltaの確率で,距離がある範囲に収まる確率はaとbが異なる確率-gammaよりも大きい)
- すべてのdeltaと, gamma in (0, 1)について,十分に大きい定数C についてn >= C/(delta gamma) なら,少なくても1-deltaの確率で,Pr_{a,b sim \chi}(d(a,b) in [lambda, Lambda]| lambda, Lambda)>=Pr_{a,b sim \chi}(a neq b) -gamma
- つまり,ラムダを上記の様に選べば,Pr_{a,b sim \chi}(d(a,b) in [lambda, Lambda]| a neq b)> 1-O(1/n)である
- つまりnが大きいなら,\chiのi.i.dサンプル間のペアワイズ距離はほとんど[lambda, Lambda]の範囲に入る.
- ゆえに,(lambda, Lambda)-PPDは分布\chiのペアワイズ距離の妥当なmeasureである.
- 真のデータ分布\chiの(lambda, Lambda)-PPDを表すのに常にPをつかう
- ゆえに,(lambda, Lambda)-PPDは分布\chiのペアワイズ距離の妥当なmeasureである.
- つまりnが大きいなら,\chiのi.i.dサンプル間のペアワイズ距離はほとんど[lambda, Lambda]の範囲に入る.
number of subsamples
- サブサンプリングの健全性を保証するのに次を使う
定理4
- Y= {y i}{i=1}^m がm=log^{O(1)}(Lambda/lambda)* log(1/delta)の,\chiからのi.i.dサンプルのmultisetであるとする
- P'がY上の一様分布のLPDDとする
- いかなるdelta in (0,1)についても,少なくとも1-deltaの確率でW(P, P') <= O(1)である
- 証明は付録G3.
- いかなるdelta in (0,1)についても,少なくとも1-deltaの確率でW(P, P') <= O(1)である
- P'がY上の一様分布のLPDDとする
- この定理は真のデータのmode構造を捉えるmultiset Yは,たったm個(log^{O(1)}(Lambda/lambda)のオーダー)のサブサンプルだけ必要ということ
離散潜在空間
- 計量埋め込みについて理論的な基礎をつくる.
- FはYからl2空間への埋め込みからなるベクトルのmultiset であった.
- Appx.G4のように,次を得る
- FはYからl2空間への埋め込みからなるベクトルのmultiset であった.
定理5
- \Fがmultiset F上の一様分布とする
- すくなくとも0.99の確率でW(P,P^) <=O(logloglog(Lambda/lambda))である.P^はFのLPDD.
- 3つのlogはwasserstein distance のboundがかなりタイトであることを示す
- Fの一様分布について述べているが,gaussian mixture(本論文で構成した)のsigmaがゼロに近づく時にも有効である.
- ガウス混合分布サンプルからのLPDDのconsistencyも経験的に確認した(図3)
- Fの一様分布について述べているが,gaussian mixture(本論文で構成した)のsigmaがゼロに近づく時にも有効である.
- 3つのlogはwasserstein distance のboundがかなりタイトであることを示す
- すくなくとも0.99の確率でW(P,P^) <=O(logloglog(Lambda/lambda))である.P^はFのLPDD.
GANの目的関数
- (3)の目的関数の正当化.
- X~ を生成サンプルG(z)の分布とする.z sim Z, and P~ を\chi(真の分布)の(lambda, Lambda)-LPDDとする
- GANの目的関数のglobal optimumはX~ =Xのときのみ達成されると,Googfellowらは述べている
- この最適が達成されるには,W(P, P~ )=0と,W(P~ ,P^)=O(logloglog(Lambda/lambda))も必要
- 後者は定理5のW(P, P^) <= O(logloglog(Lambda/lambda))
- この最適が達成されるには,W(P, P~ )=0と,W(P~ ,P^)=O(logloglog(Lambda/lambda))も必要
- GANの目的関数のglobal optimumはX~ =Xのときのみ達成されると,Googfellowらは述べている
- 結果として,(1)のminmax問題は制約付きminmax問題であり,
- min_G max_D L_gan(G,D),ただしW(P, P^)<= beta ただしbetaはO(logloglog(Lambda/lambda))
- 明らかに,この制約はminmax問題を難しくする
- ゆえに次の制約を強めた形を考える
- Zの台に関して,異なるすべてのzで,G(z)間の距離が[lambda, Lambda]に収まる (4)
- log(G(z)間の距離) - log||z間の距離||^2 がbeta^2以下 (5)
- ゆえに次の制約を強めた形を考える
- 明らかに,この制約はminmax問題を難しくする
- min_G max_D L_gan(G,D),ただしW(P, P^)<= beta ただしbetaはO(logloglog(Lambda/lambda))
-
付録Eで証明されているように,上の制約が満たされると,W(P~ ,P^) <= betaが自動的に満たされる
- 訓練では,制約(4)は自動的に満たされる.定理3により
- 式(5)の代わりに,それを目的関数(3)のsoft constraintとして扱うことができる
- (2)の第2項はラグランジュ乗数
- 式(5)の代わりに,それを目的関数(3)のsoft constraintとして扱うことができる
- 訓練では,制約(4)は自動的に満たされる.定理3により
- X~ を生成サンプルG(z)の分布とする.z sim Z, and P~ を\chi(真の分布)の(lambda, Lambda)-LPDDとする
生成サンプルのLPDD
- Gが制約(5)を満たすように訓練されると,W(P~ , P^)<= O(logloglog(Lambda/lambda))を得る.
- これはGANの式(1)のglobal optimaの達成は意味しない.global optimaは実際には達成するのは難しい
- 三角不等式と定理5を使って,次の結論を得る
- W(P~ , P^) <= W(P~ , P^) + W(P, P^) <= O(logloglog(Lambda/lambda)) (6)
- 生成サンプルのLPDDがデータ分布に近似されることを意味する
- 具体的な文脈に入れるために,appxDの例9ではmode collapseが起こったら,どれほどW(P~ ,P)が大きくなるか示す
- (生成サンプル間の距離が抑えられることはなぜ重要なのか?多様性が小さくなるのではないか?)
- 具体的な文脈に入れるために,appxDの例9ではmode collapseが起こったら,どれほどW(P~ ,P)が大きくなるか示す
- 生成サンプルのLPDDがデータ分布に近似されることを意味する
- W(P~ , P^) <= W(P~ , P^) + W(P, P^) <= O(logloglog(Lambda/lambda)) (6)
- 三角不等式と定理5を使って,次の結論を得る
- これはGANの式(1)のglobal optimaの達成は意味しない.global optimaは実際には達成するのは難しい
5. 実験
- 経験的評価を行う.
- GANの評価手法が確立していないので,合成データ,実データ両方で行う
overview
- 合成データについて,GAN4種類との比較を行う
- 生成サンプルが真のmodeにどれほどmatchしているか
- gausiann 混合分布がどれほど良いかを図るために,収束確率を既存のGANと比べる
- 難しいstacked MNISTデータセットで,どれだけのmodeをカバーできているか調べる
- false positive(誤検知)がないか確認する
- どのモードにも属さない,不適切な生成サンプルがないか
- 異なる距離metricsを使用できることを確認する
- 事前訓練がreal datasetでの収束を高速化することを確認
- 量的な結果を示す
量的な結果
- BourGANと他の手法を3つの合成データで比較
- 8つの2Dガウス分布.リング状に配置されている
- 25個の2Dガウス分布.グリッド状に配置
- 中心のガウシアンを囲む円
- 最初の2つは従来の手法[9, 10,11]で使用され,最後のものは本論文が提案
- これらの手法の量的な性能は表1
- すべての手法で,データ分布ではなく,modeを捉えられたかを測っている
- wasserstein-1距離も生成サンプルとデータの分布の間で測った(表1)
- 提案手法が最も優れている
不適切なサンプルを避ける
- 提案手法の特筆すべき利点がこれである.
- モードの間に位置するサンプルを避ける
- すべての比較対象のGANでこの問題が起こっている
- それらのGANはすべてgaussianを潜在ベクトルのサンプルに使っている
- 提案手法は3つのテストケースで不適切なサンプルを生成していない.付録F.3
- すべての比較対象のGANでこの問題が起こっている
- モードの間に位置するサンプルを避ける
質的な結果
- 実画像データでこのアルゴリズムをテストする
- 図5はDCGANと本手法の質的な比較.
- 構造とハイパラは同じ
- 付録F4
- (DCGANはもともと生成サンプルの品質がそれほど高くないので,2018年時点でDCGANに勝ってもそれほどadvantageにならない気がする)
- 構造とハイパラは同じ