GANとは
GANというのは、Generative Adversarial Network (敵対的生成ネットワーク) の略です。
簡単に言うと、AIどうしを戦わせて、画像や音声などを生成する技術です。
より詳しく説明すると、AIを2つ用意して、一方に画像などの生成をさせる役 (generatorと呼ばれる)、もう一方は画像が本物か生成されたものかを判別する役 (discriminatorと呼ばれる)をさせます。
理論的なところを知りたい方は、こちらのシリーズの記事が非常にわかりやすかったです。
今さら聞けないGAN(1) 基本構造の理解
PGGANとは
その中でも、PGGANを使いました。
PGGANはProgressive Growing GANの略で、Progressive GANとも呼ばれます (GitHubの検索とかのときのために統一してほしい...)。
画質を少しずつ向上させることによって、以前のものより高画質な画像を生成できるようになります。
こちらのサイトが、実例付きで非常にわかりやすいと思います。
メルアイコン生成器 version2を作った話
作品集
あまり、GANで色々つくってみたみたいな記事が存在しなかったので、自分でつくってみました。
とりあえず、今のGANがどれだけのものを生成できるのかを見てほしいです。
しかも、個人で画像仕分けができる程度の300~1000枚程度しか画像を用意してません。
本来、GANの研究とかだと1万枚から100万枚程度、あるいはそれ以上の画像を使うので、精度はあまり期待しないでください...
一番下に作り方とか載せるので、作りたくなったらまねしてみてください!
一番末尾に実際に用いたコード(Colab)を載せているので最後まで見ていってくださいm(_ _)m
下では学習順 (PGGANなので画質が低い順) に並べてあります。
ポケモン
https://bohemia.hatenablog.com/entry/2016/08/13/132314
https://www.monthly-hack.com/entry/201612170000
https://tech.ledge.co.jp/entry/2020/07/02/120000
などなどあるように、n番煎じ(特に1番上すごい)ですが、画質が低いGANが多かったので、PGGANで画質上げたれって感じでやりました!
公式イラストを使いました。ダウンロードした際に、外縁の透過部分が白だったり黒だったりしてたみたいで、白い枠が残ってしまっています。申し訳ないです(前処理しろ)。
↓これをもとに絵を描けそう!!
左の真ん中の
とか
とか。好みが出ますが(笑)
こいつもかっこいい。
ここにはいないけど、
こいつも結構お気に入り。とさかとくちばしと、ちょっとぽっちゃりなのがかわいい。
ピカチュウ
技術が上がっているので、https://www.inoue-kobo.com/ai_ml/gan-pikachu/index.html より精度があげられるといいなという目標で。
ネット上の様々なイラストを使わせていただきました。ありがとうございます。
へたくそだけど、かわいいのが描けて嬉しい。
アンノーン
画像が28枚しか用意できない状況で、どうなるかというのも興味があったので(オーグメンテーションしてもよかったが、あまり効果がない気がする)
集合体恐怖症の方は、ちょっと飛ばしてください。ごめんなさい。
↓実在するアンノーンが多いですが、アンノーンBの下の穴にも目がある... Vと混ざっていそうです。
↓モード崩壊(同じような画像ばかり生成されてしまうGANの学習失敗パターンの一例)してしまった...画像28枚は無理か...
↓回転させた画像なども加えて再チャレンジ
↓結局モード崩壊した...
ひらがな
文字をGANに読み込ませたらどうなるんだろうと。単純な興味です。
学習させたのは、PCに入っている明朝フォントのデータです。
https://github.com/uchidalab/font2img で、pngに変換しました。
なるほどなあ(語彙力)。実在するひらがなが多めですね。
似たような字があるときに、あいまいに書いてることがあっておもしろいです。さ、ち、ろとか。は、ほ、まとか。
でも、逆向きの字が出てくる理由がわかりません。データセットには逆向きの字は与えていません(コード内で勝手に鏡像反転して学習してる説がある)。
カタカナ
同じく実在するカタカナか、それに近い文字が多いですね。
てか〃と゜が多すぎる。〃つければ、カタカナっぽくてdiscriminatorを騙せるということでしょうか??
時々、三つ〃をつけてるの面白いですね!笑
あと、セが苦手??ヒと混ざってる?
アルファベット
フォントはCenturyです。
なるほど。アルファベットどうしが結構混ざるようです(さっきのはaとgとuが混ざっていたのですね)。あと、震えた手で書いているような揺らいだ感じになるのも興味深いですね。
漢字
JIS規格のすべての漢字
縦横にたくさん書けば、discriminator騙せると思ってるでしょ。
常用漢字のみ
すべての漢字だと複雑すぎるのかなと思って、常用漢字だけにしました。多少簡単な字も入ってきたかもしれないですが、それでもこれです笑
古文書
漢字の画像データは漢字字体規範史データセットからいただきました。本当にありがとうございます。
ノイズが多かったので、前処理しています(参考: 画像のノイズ除去)。
昔の人の達筆の字っぽい。本物だと言われたら、信じる。
虎
Google検索で虎、トラ、tigerを検索して画像を集めました (詳細は後で説明)。以降は同様に画像を集めています。
顔の特徴がとらえられるようになっていくのが、わかると思います!
どうでもいい話ですが、Googleでtigerを検索してダウンロードしていたのですが、タイガーウッズ氏の画像も一緒にダウンロードされたので、仕分けしながら笑ってました。
キツネ
アイコンにしてるくらい好きなので。
いろんな顔のキツネがいて結構難しかった。
野菜
夜景
あまりうまくいっていませんが、水面に写るビル群みたいな画像もありますね(一番上の左から4番目とその2個下など)。画像がもっとほしい。
初心者でも簡単にGANを作る方法
ここまで、紹介してきたGANですが、Google Colaboratoryを使うことで、いずれもみなさんのPCで簡単・無料で作ることができます。所要時間はColabの連続使用の制限により2~3日間程度です。
画像を集める方法(インターネット検索)
Colabで利用可能なものをご用意しました。google images downloadを利用していますが、現在300枚程度を上限にそれ以上ダウンロードできないバグが発生しているようです (直し方がわかる方は教えて下さると助かります)。
https://colab.research.google.com/drive/1igIULkva1BjKg62WfFK6p7Rv1UOEpzIj?usp=sharing
GANを学習させる
GANは自分で実装してもいいですが(勉強にもなるし)、今回は、ネット上に公開されているものを用います。
PGGANは、progressive gan pytorch
またはpggan pytorch
と検索すると色々出てくるので、お好きなものを使ってください(PyTorchでなくても大丈夫です)。
私は初心者に優しそうな
https://github.com/odegeasslbc/Progressive-GAN-pytorch
を使いました。フォルダに入れておけば全部自動でやってくれるので。
少しいじってみた感じ、デフォルトのハイパーパラメータが一番よさそうです。
Colabの雛形も用意しておくので、ご自由にご利用ください。
https://gist.github.com/bababax11/d8297befc4e02bba3b21b473ae92e58f
次回予告?
今までは、PGGANを用いてきましたが、より新しいStyleGANを用いたほうが精度があがるかもしれません ( やや複雑な仕組みになっていて、画像を増やさないと変えても意味がないかもしれませんが...)。時間ができたら、またそちらを用いた方法も紹介したいなと思っております。