Help us understand the problem. What is going on with this article?

機械学習で美少女化 ~ あるいはNEW GAME! の世界 ~

More than 3 years have passed since last update.
NEW GAME! フィルタを通した著者
myface2d_new.gif
NEW GAME! フィルタを通したドワンゴの風景
test.png

NEW GAME! というアニメはご存知でしょうか。女の子たちがワイワイとゲーム会社で働く日常を描いた作品で、非常に良い作品なのですが、一方でこんなキラキラした会社ねーよと言われた挙句、実はあそこにいるのは皆中年男性で、働きすぎて周りが皆美少女に見える幻覚が見えているのではないかという説まであったりします。ドワンゴのslackには、バーチャル彼女生成系チャンネル#kanojo_createや、美少女変身願望チャンネル#become_bishoujoというものが存在するので、現実を捻じ曲げてしまう異もあながちあり得ない話ではないのではないかとも思ってしまいます。

私もそんな一人であり、そんな美しい幻覚なら喜んで受け入れよう、ということで作ったのがこのリアルタイムNEW GAME!フィルタです

似顔絵データが存在しない = 転移学習

さて、ここでやりたいのは、実写画像を入力として、その実写画像に似てはいるが、二次元美少女に見える画像を機械学習で生成することです。

まさにそのものズバリ、という研究はないのですが、シンプルに考えるなら、この問題は以下のようなネットワークで実現できることがわかります。

最終的に作りたいネットワーク
image

しかし、このアイデアには問題があり、入力(実写)と出力(似顔絵)の対応付けられたデータセットが必要だが、それは手に入らないのです。自分には絵を描くスキルがないのに、絵を描かないと学習ができないというのは辛い問題です。

ここで、問題をいくつかのステップに分割することでどうにかこうにかやりくりして学習することを考えます。このように、そのものずばりのデータがない、などの理由でバシッと解けない問題を、複数の部分問題を順番に解いていくことで何とか解決する学習方法を転移学習と言います。

似顔絵ネットワークの学習は、次の3STEPに沿って進んでいきます。

Step 内容 ネットワーク
1 とりあえずなんらかの美少女が生成できるネットワーク image
2 入力のイラストに似せた美少女を複製できるネットワーク image
3 実写を入力として、それに近い美少女を生成できるネットワーク image

アーキテクチャの全体図は以下のようになり、青のGeneratorをどんどん強くする形になっています。

転移学習アーキテクチャ
image

STEP1: Generator = ランダムイラストネットワーク

STEP1でやりたいこと
image

似顔絵生成の問題の第一歩として、まずは、様々なイラストを描くことができるネットワーク、を作ります。これは2016年に非常に盛り上がった手法で、沢山の先行研究があります

ここでも、これらの例に漏れず、まずはGeneratorについて、DCGANを用いた学習を行います。ここでは、まだ実写のことは考えずに、イラストのデータだけを使って学習することができます。イラストは、nico-illustデータセットから20万件ほどを用いて学習しました。

Generatorの学習
image

詳細については前述のブログに任せますが、新しく、入力が実在のイラストか生成画像かを判別する赤色の Discriminator を導入し、これを騙すように青色の Generator をトレーニングすることで、Generatorが様々なイラストを描ける能力を獲得するものです。

結果1: Generatorによって創作されたイラストたち
generator_model_3010000.png

このトレーニングによって獲得した、イラストを描く能力、の結果はこちら⬆︎。それなりに納得のいくイラストができました。ただし、この段階では、こうこうこういうイラストを描いてくださいという注文をすることはできません

STEP2: 入力のイラストに似せたイラストを複製

では、自分好みのイラストを描いてもらうにはどうしたらいいでしょうか。
こちらに関しても、文章などで何らかの注文(条件)を追加する先行研究があります。
今回は最終的に実写->イラストとしたいため、画像を条件として入力し、なるべくそれに近い画像を生成するように学習します。

STEP2でやりたいこと
image

上図のように、STEP1で学習したVectorizerに加えて、Vectorizerというあらたなネットワークを導入し、これによって、 入力画像を復元できるGeneratorの入力パラメータを見つけます

Vectorizerの学習
image

学習の方法は上図の通りで、STEP1で学習したGeneratorをつかえば、ランダムなパラメータと、それをGeneratorに入れたときにできた画像を無限に用意できるので、それらを学習データとして、逆にもとのパラメータを復元するようにVectorizerを学習するのみです。

このSTEPが終わると、Generatorによって生成された画像であれば、ほぼ完璧に復元でき、一般のイラストもある程度再現できるようになります。ただし、このネットワークはイラストしか見たことがないので、実写画像については、まだ似顔絵を描くことはできません

STEP3: 実写画像を入力として似顔絵を生成

STEP3でやりたいこと
image

さて、機械学習を専門とする人にはここが一番面白いところかと思います。いままで、イラストしか学習してこなかったネットワークにどうやって実写画像からの似顔絵生成を行わせるか。

まず、前提として、Generatorは何を入力してもイラストにしてくれるので、STEP2までのVectorizer->Generatorでも、何らかの顔イラストは生成することはできます。ここでやりたいのは、"入力実写画像の特徴を保った出力イラストを作る"という制約をどうやって学習させるか、です。たとえば、安直に、もとの入力と画像的に近いイラストを出力するように、と考えてしまうと、これは似顔絵ではなく実写画像そのままを作ってしまいます。

この問題を解決するためには、実写画像と似顔絵では共通しているべき特徴のみを保存するという方法が必要です。

実写画像Vectorizerの学習
image
実写画像 -> Vectorizer -> Generator -> (似顔絵) -> Classifier -> 元の顔の特徴

上図のように、新たにClassifierを導入し、一旦STEP2のVectorizer->Generatorを経由して、似顔絵を無理やり作り、その似顔絵から、 元の画像の特徴(若い、丸顔、くまがある etc...)を識別できるように、Classifier、Generator、Vectorizerをまとめて学習し直します。顔の特徴のタグがつけられてるデータセットとして、Large-scale CelebFaces Attributes (CelebA) Dataset
を利用しました。

なお、Vectorizer、Generator、Classiferともに5層のニューラルネットワークで構成しているので、STEP3まで至ると、まとめて15層の(ディープ)ニューラルネットワークとして扱っていることになります。

実験結果

ここまでで、すべてのステップの学習が終わりました。以下に、実際に実写画像を美少女に変換した結果を数枚載せます。

なぜか我々が放り込まれている世界 ほんとうの世界(美少女)
img_q1.jpgimg_q4.jpgドワンゴ採用ページ test.pngtest.png
YUKA0I9A7452_TP_V.jpghttps://www.pakutaso.com/ test.png

これらの実験結果から、髪型や顔向きについて保持しつつ、実写画像をいい感じに美少女画像に変換成功していることがわかります。また、眼鏡もギリギリ再現できているのですが、これはSTEP3の学習が進むことによって成功するようになりました。

多少重たい処理なのですが、手元のMacBookPro環境でも、webカメラから入力した画像を使ってほぼリアルタイムで動かすことができます。頑張ればすべての人間を美少女に変換するゴーグルも作れそうな気がします。Hololensが、ほしい!!

なお、コードと学習済みモデルは https://github.com/Hi-king/kawaii_creator で公開しているので、ぜひお試しください。

まとめ

  • 実写とイラストの対応データセットがなくても、なんとか似顔絵ネットワークを学習することはできる
  • 実写とイラストという、異なるドメインの学習を行うには、それぞれの問題を同一のネットワークを利用して順番に学習していく、転移学習が有効。

参考文献

Hi-king
m3dev
インターネット、最新IT技術を活用し日本・世界の医療を改善することを目指します
https://m3.recruitment.jp/engineer/
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away