※昨年話題になったDCGANで遅ればせながら遊んでみたという話です。内容としてはアルファベットに適用しただけです。
背景
ドレイクの方程式のN値がもし1より大きければ、どこかに地球外文明があり、おそらく何らかの文字が使われていることでしょう。そしてその多くは、地球でも生まれた(そして消えていった)文字とかなり共通している、または似ている確率が高いと思います。
文字としての制約:
- 条件1:少々くずれても互いに判別可能な(判別しやすい)文字のセットであること
- 条件2:複雑すぎないこと
- 条件3:描きやすいこと(≒条件2)
を満たす図形のバリエーションには限りがあるためです。
であるならば例えば、現在のアルファベットから特徴を抜き出してうまくアルファベット様文字列生成器を作れれば、パラレルワールドのアルファベット、そして宇宙人のアルファベットを垣間見ることができるはずです。
実験手法としては、本来は、非常に単純な形を変形・分裂させて、上記制約をかけながら進化計算させるような手法が(文明的には)正しいと思われます。条件1と条件2はある意味トレードオフなので、そこを最適化条件に加えて計算させれば、進化計算でもディープラーニングでも、良い感じになる予感はしています。
しかしその場合トップダウンで複雑度算出ロジックやパラメータの指定(図形の複雑度やポテンシャルエネルギー)が必要になりますし、あとDCGANを試して見たかったということがあったため(これメイン)、今回はアルファベットをDCGANにかけました。
実験方法と経過
https://github.com/mattya/chainer-DCGAN
で公開されているコードをカスタマイズし、アルファベット52文字を、DCGANで学習させました。
なにせ学習データがたった52枚なので、学習も一瞬で終わります。
これだけ見ていると本当にアルファベット生成器になっているか、少なくとも元にしたアルファベットをちゃんと生成できるのかどうか不安なので、生成パラメータを調整して、元アルファベットを出力してみます。
この元データ再現パラメータの探索は、本来はchainer-goghに登場するような「出力画像とネットワークのパラメータを固定して、入力データを学習させる」方法で行うべきだと思うのですが、自分のchainerの理解が浅いせいでうまく実装できなかったので、今回は力技で算出しました。
大体うまく再現できています。これを頂点画像と呼ぶことにします。
遊んでみる
これら頂点画像の生成パラメータのベクトル演算により、中間画像が生成できるか確認してみます。
例:AとBの中間ベクトルを徐々に変化させてみる
AがBに変化する途中には、Rが出現するんですね。
同じ処理をAからZまで繰り返して、つなげてアニメにしてみます。
(動画はこちら)
似ている文字ほど生成パラメータ(100次元)のベクトル間距離が近いはずなので、生成パラメータを二次元に縮約して可視化してみます。
大体似た形が集まっているのがわかります。
ではいよいよ、中間画像をいろいろ生成してみます。
生成画像例
※2文字混合、3文字混合は生成ベクトルを単純平均
※4文字混合は、生成ベクトルを、4:3:2:1で加重平均
(追記)ここは趣旨から言えば、文字を混合するよりランダムに生成パラメータを選んだ方が良いですね。だって上の180エポック目の方が、面白い文字含んでるし。。。
見覚えのある文字(ギリシャ文字のイプシロンやシグマ)がありますが、今回学習の材料は英語のアルファベットだけでギリシャ文字を教えた覚えはありません。これらも生成文字です。
なるほど、こんな文字もあり得たのかもしれない、と妙な感慨があります。
いや・・・もしかすると「あった」のかもしれない・・・?
あるじゃないか!
宇宙人のアルファベットに向けて
今回はDCGANを試して、それなりに楽しめましたが、サンプルに依存する点、中間画像という点がバリエーションを制限してしまいますし、やはり文字版アカシックレコードへの扉を開くには至りません。
また「文字の発生と進化」という観点からは、棒/筆で一定の方向性をもって描いてできる形、という制約も必要そうな気がしてきます。
冒頭に述べた進化計算も含め、他の手法も試していきたいと思います。