Stable Diffusion 2.0を使ってみた

StableDiffusion

Last updated at 2022-12-19Posted at 2022-12-06

今年(2022年)にAI画像生成ツールがラーメンを手で食べる画像が出来ると有名になった

・stable diffusionとは

Stable Diffusionは、2022年に公開されたディープラーニングのtext-to-imageモデルである。主にテキスト入力に基づく画像生成に使用されるが、他にもインペインティング、アウトペインティング、テキストプロンプトによって誘導される画像に基づく画像生成にも使用される。
　※wikipediaより

絵のセンスが無い人でも、文字から画像生成出来るツールです。

・v1とv2の違い

生成される画像のデフォルトの解像度が512×512ピクセルとなるモデルと、768×768ピクセルとなるモデルを提供
画像を入力すると4倍の大きさにアップスケール可能なモデル
入力された画像の深度を推測し、深度とプロンプトから新たな画像を生成可能なモデル
画像（および変更したい部分を示すマスク画像）とプロンプトを入力すると、画像の一部だけをプロンプトに応じて書き換えるモデル
※ @IT atmarkit様より

v1が512x512ピクセルだけだったので、解像度が大きくなり良くなった。
他にはv1だと画像の一部編集ができなかったのが、v2で部分編集が実現したのが良かった。

・Stable Diffusion 2.0
Google Colabが無料で環境依存が無いので、Google Colabで画像生成することにします。

コードもnpaka様の作成を見て作ってみました。

prompt = "a photo of an astronaut riding a horse on mars"
上記のダブルクォーテーション内に、画像生成したい文字列を英語で入れて、プログラムを動かします。

↓↓私が実行した結果↓↓

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up