-
Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya Sutskever, Pieter Abbeel
-
InfoGAN 画像とlatent codeの間の情報量を最大化することでunsupervised で学習する?
-
MNISTとSVHN。CelebAを使っている。
-
GANがベース。通常のノイズを2つの部分zとcにわける。cに重要な情報が乗ることを期待。
-
I(c; G(z,c)) を最大化する。I(X;Y) は XとYの間の相互情報量を意味する。つまりYによるXに関する情報量
-
直感的には、zを無視するようになるだけのような気がするけど。。
-
実装としては、discriminator ネットワークの最終段の手前で別の口を出して、そこでcを予想させる。
{c,z} -> G -> x -+-> D -> T/F
+-> Q -> c
こんな感じか。