More than 1 year has passed since last update.

「食パンをくわえて走る女子高生」のイラストをSketch to imageでAI生成してみた

Posted at 2023-09-11

Supershipの名畑です。料理漫画というのはいかに読者に味を想像させるかが重要だと思っています。でも、現在連載中の「寿エンパイア」は味が想像困難な寿司が次々と登場するものの面白い。あと、今にして思えば「焼きたて!!ジャぱん」に登場するパンたちも味の想像なんてまったくできなかったです(そういう次元じゃない?)。

はじめに

画像生成モデルで有名なStable Diffusionの提供元stability.aiによる画像編集ツールとしてClipDropというものがあります。

ClipDropは複数のツールを提供しているのですが、そのうちの一つにSTABLE DOODLEというものがあります。
Sketch to image、つまりは、端的に言えば「落書きを元にして高品質画像を生成するツール」です。

下記の通り、Stable Diffusionの最新モデルであるStable Diffusion XL(SDXL)と、構図制御で有名なT2I-Adapterが用いられています。

Stable Doodle combines the advanced image generating technology of Stability AI’s Stable Diffusion XL with the powerful T2I-Adapter. T2I-Adapter is a condition control solution developed by Tencent ARC (license). It allows for precise control over AI image generation.

このSketch to imageはまだBetaではあるもののWeb APIも提供されております。
このAPIを用いて「落書きから高品質な画像を実際に生成してみる」というのが今回の趣旨です。

で、なにを描こうかと考えたんですが、先日「『食パンを咥えたヒロインと街角でぶつかる』シーンは、王道なのに元ネタが存在しないらしい→元ネタ不明の王道はこんなにある」というtogetterまとめを見ましたので、今回は「食パンをくわえて走る女子高生」を描いてみようと思います。

AIで生成するにはかなり難易度が高そうなお題なのでちょうどいいのではないかと。

Sketch to image未使用

まずは、参考までに、Sketch to imageを使わずに生成してみました。
果たしてどんな結果が出るのか。

生成に使用したのはClipDrop経由でのStable Diffusion XLです。

プロンプトはこちら。

A high school girl running through a residential area with a piece of plain bread putted in her mouth

直訳するなら「食パン一切れを口に入れて住宅街を走る女子高生」でしょうか。
後で思ったのですが「a slice of white bread」の方が正確でしたかね……それとも「a slice of sandwich bread」でしょうか。

スタイルとしてはAnimeを指定しました。

結果はこちらです。

「う〜ん、思っているのとは違う」という感じです。「食パンをなんだと思っているんだ？」というイラストたち。

やはり複雑なシチュエーションすぎるのですよね。
そして今のStable Diffusionだとこの複雑なシチュエーションをバッチリ再現するのは難しい。

ControlNetもなにも使わないと、普通の構図だってなかなか狙った通りには生成できないですからね。

Sketch to imageを使用

はい、ここからが本題です。
Sketch to imageを使った場合の結果です。

コード

API呼び出しのコードはこちらです。公式ガイドに記載の内容を元にしています。Pythonで書いています。

import requests
import os
import time

r = requests.post('https://clipdrop-api.co/sketch-to-image/v1/sketch-to-image',
                  files={
                      'sketch_file': ('original_image.png', open("./original_image.png", "rb"), 'image/png'),
                  },
                  data={'prompt': 'A high school girl running through a residential area with a piece of plain bread in her mouth, Anime'},
                  headers={'x-api-key': os.getenv("CLIPDROP_API_KEY")}
                  )

if r.ok:
    with open(f"./generated_image_{int(time.time())}.jpg", "wb") as f:
        f.write(r.content)
else:
    r.raise_for_status()