More than 3 years have passed since last update.

VQGAN+CLIPでGenerative Artしてみる

Last updated at 2021-08-10Posted at 2021-08-10

最近Twitterで見かける機械学習を用いたアート作品が気になっていたので、試してみました。
使ったのはVQGAN+CLIPです。

VQGANとCLIPとは

ベクトル量子化(VQ)を用いたVAEである「VQ-VAE」を、敵対的生成ネットワーク(GAN)に発展させた新しい画像生成モデルが「VQGAN」です。このVQGANと、テキストと画像という異なるデータを結びつけるニューラルネットワークの「CLIP」を組み合わせることで、「入力したテキストから画像を生成するモデル」をライアン・モールトンさんが作成しています。
画像生成AIはアートのあり方を変えてしまうのか？-GIGAZINE

だそうで、つまりテキストを入力するとそれに合わせてマシンが画像を作ってくれるのです。すごい。
そんでもってそれを誰でも使えるように公開していらっしゃいます。
VQGAN+CLIP (z+quantize method con augmentations, interfaz amigable).ipynb

こちらで書かれている説明通りに進めたら簡単にできました。
Help: Generate images with VQGAN + CLIP

手順

簡単にまとめるとこんな感じ。
① Parametrosセルのtextosに好きなテキストを入力
② 一番上のLicensed under the MIT Licenseというセルから順番にRunしていく
③ Hacer la ejecución...というセルをRunすると画像が生成される（50イテレーションごとに1枚ずつ画像が増えていきます）
④ 十分だなと思ったHacer la ejecución...のセルを停止する

動画でDLしたいとき
⑤ Genera un vídeo con los resultadosの1つ目のセルをRunした後、2つ目のセルRunではブラウザで確認、3つ目のセルRunでは動画がダウンロードされる

調整したい場合はParametrosをいじればOKです。

やってみた

入力テキスト
a fantasy world vray unreal engine hyperrealistic
実行結果

入力テキスト
star wars hokusai katsushika
実行結果

入力テキスト
star wars Klimt style
実行結果

どれもイテレーションは400くらいです。

補足

ちなみにvray unreal engine hyperrealisticというのは、いい感じな出力結果を出すための魔法の言葉です。
いろんな人がVQGAN+CLIPをhackするために編み出しています。
ほかにも、アーティストのスタイルであれば

Beksinski style / Dali style / Van Gogh style / Giger style / Monet style / Klimt / Katsuhiro Otomo style / Goya [r 4] / Miguel Angel (Sistine Chapel style) / Joaquin Sorolla style / Moebius style / in Raphael style (sometimes contributes to improve the lines of the faces).

とか色々あるみたいです。詳しくはこちらのUse adjectivesで見れます。
Help: Generate images with VQGAN + CLIP

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up