Stable DiffusionのWeb APIを用いて写真的素材をイラストに変換してみた

Posted at 2024-02-05

Supershipの名畑です。TVアニメマッシュル-MASHLE-の2期のOPが海外でバズっているという噂は聞いていたけれど、公開一月足らずでYouTubeの動画が2000万再生を超えていてびっくりしました。

はじめに

画像生成モデルであるStable Diffusionではテキストからの画像生成(text-to-image)だけではなく、画像を元にした画像生成(image-to-image)もございます。

今回の記事ではPythonでstability.aiのAPIを呼び出すことで「写真を元にしたイラスト生成」を行なっています。

目新しい試みではないというか、私の過去記事「Stable Diffusionでの同じ顔の複数画像生成をPythonとWeb APIで試みた記録」でも過去のモデルで似たことはやっているのですが、あれから半年以上経っているので改めてやってみようと思いました。

余談ですが、現時点において狙った構図の画像を生成するには、やはりなにかしらの元画像を用いるのが手間的な意味で良いのではないかと思っています。今後どうなっていくかはわかりませんが。

注意

元画像、生成画像共に実際の解像度は1024x1024なのですが、記事容量を抑えるために本記事では512x512に変更した上でアップロードしています
Web APIは有料です。Web APIを用いずローカルで実行させたい場合はstable-diffusion-webui等をご活用ください

元画像

今回はPhotoshopの生成塗りつぶしで用意してみました。

プロンプトに「Young Japanese woman in a suit drinking coffee at a coffee shop」と入れて生成した画像が以下です。訳すと「喫茶店でコーヒーを飲んでいるスーツ姿の若い日本人女性」です。

コード

今回用いたPythonのコードは下記です。ここではコード内容について詳しくは触れませんので、興味がある方はAPI referenceや過去記事「Stable Diffusionでの画像生成をPythonとWeb APIで実装してみた記録」をご覧ください。

import base64
import os
import requests
import time  # ファイル名にタイムスタンプを入れるために使用

engine_id = "stable-diffusion-xl-1024-v1-0"  # SDXL 1.0

api_host = os.getenv('API_HOST', 'https://api.stability.ai')
api_key = os.getenv("STABILITY_API_KEY")  # 環境変数にAPIキーを保存済み

# API Keyの取得確認
if api_key is None:
    raise Exception("Missing Stability API key.")

# API呼び出し
response = requests.post(
    f"{api_host}/v1/generation/{engine_id}/image-to-image",
    headers={
        "Accept": "application/json",
        "Authorization": f"Bearer {api_key}"
    },
    files={
        "init_image": open("./init_img.png", "rb")
    },
    data={
        "text_prompts[0][text]": "Young Japanese woman in a suit drinking coffee at a coffee shop",
        "text_prompts[0][weight]": 1.0,
        "image_strength": 0.9,  # 元画像の強度
        "style_preset": "anime",  # スタイル
        "seed": 99999  # シード値
    },
)

# レスポンス確認
if response.status_code != 200:
    raise Exception("Non-200 response: " + str(response.text))

# レスポンス取得
data = response.json()

# 画像保存
for i, image in enumerate(data["artifacts"]):
    with open(f"./{engine_id}_{int(time.time())}_{i}.png", "wb") as f:
        f.write(base64.b64decode(image["base64"]))

元画像をそのまま画風だけ変更したいため、プロンプトにはPhotoshopに渡したものと同じ「Young Japanese woman in a suit drinking coffee at a coffee shop」を書きました。

image_strengthが元画像をどれだけ活かすかを示すパラメータ(0〜1)となります。1に近いほど元画像のままで、0に近いほどに元画像から離れていきます。
今回はこの値を0へと徐々に近づけて、どれだけ元画像を保ったまま画風が変わっていくかを記録に残します。

image_strengthを変更しつつ生成した画像たち

image_strength = 0.7

image_strength = 0.5

image_strength = 0.3

image_strength = 0.1

image_strength = 0.01

0.7、0.5あたりは元画像とそれほど差がないように感じられるかもしれませんが、並べて見るとやっぱり違います。

0.3あたりが最も「元画像の構図を残しつつ画風が変わった」と言える感じでしょうか。
胸のコサージュ的なものが見栄えに悪影響を及ぼしていますが。

プロンプトを変えてみた

画風をさらに変更するため、プロンプトを以下のように変えてました。
「moe」を重み0.3として追加しています。

"text_prompts[0][text]": "Young Japanese woman in a suit drinking coffee at a coffee shop",
"text_prompts[0][weight]": 0.7,
"text_prompts[1][text]": "moe",
"text_prompts[1][weight]": 0.3,