DeepLearning

#MakeGirls.moe で口パクGIF画像を作る

More than 1 year has passed since last update.

#MakeGirls.moeが流行っています。

私も似たようなことをやりましたが、ここまでのクオリティのものは出せませんでした。すごいです。

Girl Friend Factory - 機械学習で彼女を創る - 

(それと、ペーパーで私が引用されていました↓。嬉しいです。)

image.png

さて、今DeepLearning界隈で大流行しているGANという技術の素晴らしい点はいくつかあり、その1つに、どうやら任意の空間を任意の空間にマッピングでき、かつ線形性を獲得できるらしい点があります。これができると、ある空間をより密な空間にマッピングしたあと、密な空間上での連続点から元の空間での点群を得ることで、意味を持ったモーフィングが可能になります。実際にペーパー内でも触れられているように、潜在変数空間での連続点からモーフィング画像を生成できることが報告されています。

ところで、MakeGirls.moeが用いるモデルは、潜在変数の他に、髪の色や開口などのラベルを受け取ります。このラベルはたぶん、学習時は-1/1の二値にして入力されます。そしてモデル使用時は-1か1を与えて画像を生成するのが普通です。では、この値を-1から1に徐々に変化させるとどうなるかというと、

←「口を開く」=−1        「口を開く」=+1→

0001.png0002.png0003.png0004.png0005.png

このようになりました。「口を半開きにする」学習をしなくても、モーフィングを使えばそれっぽい画像が得られます。これは私が実験したときも同様の結果が得られていました。なぜそんなことができるのか明確な理由はわかりませんが、できたので、OKです。(8/16現在、ラベルの値を中間にして画像を生成するにはjavascriptをちょこちょこっと書く必要があります。やり方は記事の終わりで紹介します。)

口パクモーフィングができることがわかったので、口パクGIF画像にしてみました。

hoge.gif

ちゃんと口パクできていることがわかります。しかし、体の一部のみを変形させるのは難しいらしく、左肩が左眉が一緒になって動いています。「口を開く」ラベルは、人が思う「口が開く」空間に完全にはマッピングされていないことになりそうです。

MakeGirls.moeにはありませんが、「目を閉じる」ラベルがあるとまばたきGIFが作れたりします。これを活用したイラストGIF生成サービスを作ろうと思っていましたが、そうこうしている内にハイクオリティなモデルが公開されました。この分野も参入者がどんどん増えて、より一層進展していってほしいです。

それにしても、なんでこんなきれいなのが生成できるんでしょうか。中でも驚いたのが、服が服らしい形を保っている点です。DRAGANにしたこと、生成器をResNetにしたこと、データセットを選別したこと、学習率を変化させたこと、SRGANを使ったこと、一体どれが最も寄与したんでしょうか。とても気になります。


中間ラベル値の入力方法


  1. google chromeでMakeGirls.moeを開く

  2. デベロッパーツールを開き、Sourcesから/static/js/main.hogehogeを開く


  3. this.gan.runで検索し、BreakPointを設置する(行番号をクリックする)

  4. 好きなタグを選んでGenerateする


  5. Consoleに移動し、n[20]に-1~1を代入する(n[20] = 0など)

  6. 停止したスクリプトを再度動かす

n[20]open mouthラベルっぽいです(ラベルの順番はたぶんペーパーのタグの順番と同じ)。コードは詳しく読めていませんが、runメソッドの引数で潜在変数以外っぽいのはこれしかないなぁと当たりをつけました。

#MakeGirlsMoe でもっと遊べるプログラムを書いた(実質百合画像生成)を参考にさせて頂きました。