Text2Image:テキストから連想される画像を生成: Big sleep dreamに24個の英文を与えて、挙動を考察!

DALLE-E以外にも、調べてみると、数多くのアルゴリズムに立脚した多くのモデルの実装コードやツールが公開されています。今回は、Big sleep dreamを取り上げます。

  • 以下は、英文 "a pyramid made of ice"の連装画像を生成する場合
$ pip install big-sleep
$ dream "a pyramid made of ice"

Big sleep dreamについて

今回、Text2Imageを行うアルゴリズムの1つであるBig sleep dream学習済みモデル24件の英文を与えたとき、どのような画像が描かれるのかを観察して、得られた結果に対する考察を行いました。


  • 写真のような写実的な画像が出力される。
  • 人物を指定した場合は、写真のような綺麗な絵が生成される。
  • 抽象的な概念や箴言・格言を入れると、なぜか鳥や昆虫の画像が描画されてしまう(学習データの偏り?)
  • sketch調で描け、と文で指定すると、ちゃんとそれらしいテイストの絵が描かれる。
  • マイケル・ジャクソンレディ・ガガという著名人の名前を与えると、それらしい人物が描画された。
  • アメリカの金門橋(ゴールデン・ブリッジ)フランスのエッフェル塔は、それらしく描かれた。しかし、フランスの凱旋門は無視されて描かれなかった。



  • Big sleep dreamは、clipBigGANの2つを組み合わせたものである。

Ryan Murdock has done it again, combining OpenAI's CLIP and the generator from a BigGAN! This repository wraps up his work so it is easily accessible to anyone who owns a GPU.

  • clip : OpenAIから公開されたツール。引数で渡した画像が、str型のテキストで渡した複数の単語のうち、どの単語に一番近いかのスコア値を返してくれる。Open AIから出た論文Learning Transferable Visual Models From Natural Language Supervisionで提案された。

  • BigGAN : (記載)


アルゴリズム名 論文 GitHub ポスター動画
clip Learning Transferable Visual Models From Natural Language Supervision openai/CLIP Implicit Neural Representations with Periodic Activation Functions NeurIPS 2020 (Oral)
Big GAN Large Scale GAN Training for High Fidelity Natural Image Synthesis 様々な実装コードへのリンク集




  • エポック数: 20
  • イテレーション数: 1050
  • Google Colab+ (定額月額 5,243円)
  • GPU: Tesla-NVIDIA V100
  • Python ver.: 3.7.11


実行例 (Colab+ Jupyter notebook)

!dream "The U.S President walking in the garden of the White House with his wife" --save-progress --save-every 100 --save-best


Due to the class conditioned nature of the GAN, Big Sleep often steers off the manifold into noise. You can use a flag to save the best high scoring image (per CLIP critic) to {filepath}.best.png in your folder.

$ dream "a room with a view of the ocean" --save-best

  • 210枚の画像が生成されて、カレント・ディレクトリに画像ファイルが保存されます。
( 省略 )

【 動作検証 】

今回、Text2Imageを行うアルゴリズムの1つであるDeep-daze Imazine学習済みモデル24件の英文を与えたとき、どのような画像が描かれるのかを観察して、得られた結果に対する考察を行いました。



No. 出力画像 入力した英文 備考
1 The U.S President walking in the garden of the White House with his wife
2 A naked Italian beautiful girl without clothes standing in fromt of the hotel
3 I have a dream that my four little children will one day live in a nation where they will not be judged by the color of their skin but by the content of their character キング牧師の有名な演説
4 Inspire the next 日立のスローガン
5 Never never never give up 英首相チャーチルの言葉
6 It is a mistake to look too far ahead. Only one link of the chain of destiny can be handled at a time 英首相チャーチルの言葉
7 The price of greatness is responsibility 英首相チャーチルの言葉
8 The bright future shall come to the 21st Century
9 Draw a French restaurant on the left. Draw a Japanese restaurant on the right
10 A photo of French restaurant on the left, a hand-written sketch of the same restaurant on the right and a photo of a British gentle man at the bottom
11 a photo of a British gentle man
12 a sketch of a British gentle man
13 Having forgotten to bring my wallet, I had to go back to home to get it
14 Every spirit builds itself a house; and beyond its house, a world; and beyond its world a heaven. Know then, that the world exists for you: build, therefore, your own world エマソンの言葉
15 Stay hungry, stay foolish スティーブ・ジョブズの言葉
16 I don't know whether or not you want to work for the company or not


No. 出力画像 入力した英文 備考
17 ™U.K. Prime mInister Tony Blair and U.S. Presiden George W.Bush shake hands in front of the UK Parliament"

  • 以下、米ブッシュ(元)大統領も英ブレア(元)首相も、いずれも現職在任当時の画像
No. 実際の画像1 実際の画像2 実際の画像3


  • レディガガ(左)とマイケルジャクソン(右)に見えなくもない
No. 出力画像 入力した英文 備考
19 Michael Jackson and ady Gaga are dancing at the building of SONY Music Inc. located at New York city


No. 出力画像 入力した英文 備考
20 The Eiffel Tower on the left side and the triumphal arch on the right side
21 A Photo of the Golden Gate Bridge at San Francisco in winter

