LoginSignup
9
4

More than 1 year has passed since last update.

Stable Diffusionがロールシャッハテストでクリスマスカードを作ってくれる記事

Last updated at Posted at 2022-12-23

こんにちは。EngineerでもDesignerでもない野生のKDDI社員です。
この記事は、KDDI Engineer&Designer Advent Calendar 2022の24日目の記事になります。
メリークリスマスイブ!

この記事の経緯

この記事は、最近技術的な業務が回ってこなくて拗ねていた私が、
KDDI Advent Calendar 2022にお招きされて舞い上がった結果、
ロールシャッハテストがクリスマスカードにしか見えなくなった為に、
StableDiffutionに具現化させた。という記事になります。

ロールシャッハテストとは

インクの染みが何に見えますかー?っていう人格診断のあれです。
はい。

画像引用元:https://gigazine.net/news/20190308-rorschach-test/
もう貴方にも「天使が二人、クリスマスツリーで戯れている」ようにしか見えないはずです。

StableDiffusionとは

話題のお絵描きAIちゃんです。文字と画像を与えると、絵を生成してくれます。
私が説明するよりも、めちゃくちゃ分かりやすい解説記事がありますので貼っておきます。

Stable Diffutionにロールシャッハテストを受けさせる

本来であればロールシャッハテストは「絵にキャプションをつけるタスク」です。
ですがネットで受けようとすると「絵に対して最も適切なキャプションを選択肢から選ぶ」になります。
これが研究会投稿だったら、
絵と選択肢のキャプションを入力として画像生成を行い、Discriminatorで自然さを評価する
とかやるところなんですが、この記事では
単に私が見えたクリスマスカードを再現してもらうこと
だけします。
まぁ方法さえつかめば、あとはStable Diffutionが自力でテスト突破してくれるでしょう。

実装したもの

環境

  • 実行環境   :WSLのUbuntu
  • バージョン管理:pyenv
  • python    :3.8.12
  • お絵描きAI  :stable_diffusion.openvino
  • 画像処理   :Image Magick    #sudo apt-get install imagemagick

目標

まだクリスマスカードが見えていない人のために説明すると、こんな絵が求めているものです。
キャプションは「天使、クリスマスツリー、ベル、翼、見上げる少年、巻き毛、俯瞰」でしょうか。

失敗した方法

まず画像00.jpgを用意して安直に画像生成しました。
openvinoは正方形のみ対応しているので、事前にトリミングしています。
左右対称ですし、一人描ければ十分ですよね。

■00.jpg
■コード
# 画像生成する
python demo.py --prompt "an angel, Christmas tree, Christmas bells, Angel wings,boy looking up, boy with blonde curly hair, bird's-eye view" --init-image ./input/00.jpg
■生成画像

黒い…
失敗.png

■敗因

さすがに黒い染みから妄想できるほどAIは想像力豊かじゃない。
因みにデフォルトイメージを与えずに画像生成すると、色々素敵な絵を提案してくれます。
でも私は、私の考えたクリスマスカードを具現化したいんだ…!
デフォルトなし.png

うまくいった方法

仕方がないのでもう少し色の指示を与えます。
またStableDiffutionは元々ノイズ除去のモデルですから、ノイズも載せておきます。
人間も、よく見えない方が想像力が掻き立てられますしね。

01.png
■コード
# noiseを載せる
convert +noise Gaussian -attenuate 10 ./input/00.jpg ./input/02.png
convert -gaussian-blur 10 ./input/02.png ./input/03.png
# 画像生成する
python demo.py --prompt "an angel, Christmas tree, Christmas bells, Angel wings,boy looking up, boy with blonde curly hair, bird's-eye view" --init-image ./input/03.png --strength 0.9 
■生成画像

そうそう、こういうの。
出力.png
この辺なんて目標に近いんじゃないでしょうか。
この辺.png

■イメージに近づける

とりあえず解釈が近い画像を重ね合わせてみます。

うーん、こう具現化してくると、なんか違うというか…
私が求めていたのはもうちょっとボッティチェリみたいな宗教画なんですよね(わがまま)
というわけで、リテイクをお願いしましょう。
この重ね画像04.pngに、キャプション「ボッティチェリ」を加えて、再チャレンジ。

■リテイクのコード
# 画像生成する
python demo.py --prompt "peinted by Botticelli, an angel, Christmas tree, Christmas bells, Angel wings,boy looking up, boy with blonde curly hair, bird's-eye view" --init-image ./input/04.png --strength 0.5
■生成画像

天才です。ありがとうございます。
1207__05.png

まとめ

  • 私のコーディング欲を満たす
  • クリスマスらしいことをした実績を開放する
  • Stable Diffutionちゃんの人格テスト突破

で一石三鳥できました!

参考文献

ロールシャッハテスト 解説

ロールシャッハテスト 画像引用元

Stable Diffusion 解説

Stable Diffusion 本家

ImageMagick 本家

9
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
9
4