はじめに
9/5にAmazon BedrockでStability AIの新しい画像生成モデルが3つ発表されましたので早速使ってみました!
3種の新しい画像生成モデル
新たに発表された3種のモデルの特徴は以下のとおりです。現在はオレゴンリージョンでのみ利用可能でした。
特徴 | Stable Image Ultra | Stable Diffusion 3 Large | Stable Image Core |
---|---|---|---|
パラメータ | 160億 | 80億 | 26億 |
入力 | テキスト | テキストまたは画像 | テキスト |
タイポグラフィ | 大規模表示用に調整 | 大規模表示用に調整 | 異なるサイズやアプリケーションでの汎用性と可読性 |
視覚的美学 | 写真のようなリアルな画像出力 | より細かい詳細に注意を払った非常にリアルな出力 | 良好なレンダリング;詳細指向ではない |
料金(1枚あたり) | 0.14ドル | 0.08ドル | 0.04ドル |
SDXL 1.0の料金が標準品質で0.04ドル、プレミアム品質が0.08ドルであることを考えると、Stable Image CoreがSDXLの標準画質、SD 3 Largeがプレミアム品質に相当し、Stable Image Ultraが更なる上位版という位置付けになりそうですね。
早速試してみました
AWSが公開しているブログにサンプルプロンプトが記載されているので、シード値は0で同じプロンプトを使って各モデルによる生成を比べてみました。
プロンプト
photo, realistic, a woman sitting in a field watching a kite fly in the sky, stormy sky, highly detailed, concept art, intricate, professional composition.
プロンプト
画像の中に特定の文字列「Stable Image Ultra in Amazon Bedrock」を挿入させることも
A stylized picture of a cute old steampunk robot with in its hands a sign written in chalk that says "Stable Image Ultra in Amazon Bedrock".
それぞれ好みが分かれるところですが、特徴表の通りUltraはよりリアルっぽさがあるように感じられます。恐らく
ローカルから生成させてみた
事前準備
pip3 install boto3 streamlit pillow
コードを実行すると3種のモデルを選択して画像を生成できるようになるので、日本語で生成したい画像のイメージを入力してください。
また、Stable Diffusion 3 Largeは画像から画像生成も可能になっているモデルで、"幅が640-1536ピクセル、高さが640-1536ピクセルの画像をアップロードして入力画像として使用することができます。
streamlit run app.py
※<プロフィール名>には自身の環境に合わせてください。
オプション
オプション名 | 概要 |
---|---|
aspect_ratio | 16:9、1:1(デフォルト)、21:9、2:3、3:2、4:5、5:4、9:16、9:21 |
mode | text-to-image/image-to-image(SD 3 Largeのみ) |
output_format | 出力画像の形式。JPEG、PNG 高さ640~1,536ピクセル、幅640~1,536 ピクセル |
seed | 生成の「ランダム性」を導くために使用される0~4294967295の値。 指定しない場合、ランダムシードになります。 |
negative_prompt | 出力画像に表示したくないキーワード |
import base64
import boto3
import json
import os
import streamlit as st
from PIL import Image
import io
CLAUDE_MODEL = "anthropic.claude-3-haiku-20240307-v1:0"
STABILITY_MODELS = {
"Stable Image Core": "stability.stable-image-core-v1:0",
"SD3 Large": "stability.sd3-large-v1:0",
"Stable Image Ultra": "stability.stable-image-ultra-v1:0"
}
session = boto3.Session(profile_name='<プロフィール名>')
bedrock_runtime = session.client("bedrock-runtime", region_name="us-west-2")
st.title("新しいStability AIモデルで画像生成を試そう")
selected_model = st.selectbox("使用するモデルを選択してください:", list(STABILITY_MODELS.keys()))
generation_mode = "text-to-image"
if selected_model == "SD3 Large":
generation_mode = st.radio("生成モードを選択してください:", ["text-to-image", "image-to-image"])
japanese_prompt = st.text_input("画像生成のための日本語プロンプトを入力してください:")
uploaded_file = None
if generation_mode == "image-to-image":
uploaded_file = st.file_uploader("元の画像をアップロードしてください", type=["png", "jpg", "jpeg"])
def translate_to_english(japanese_text):
body = json.dumps({
"anthropic_version": "bedrock-2023-05-31",
"max_tokens": 1000,
"messages": [
{
"role": "user",
"content": f"""あなたは日本語を英語に翻訳し、画像生成に適したプロンプトを作成するエキスパートです。
以下の日本語テキストを英語に翻訳し、Stable Diffusionのような画像生成AIで使用するのに適したプロンプトに変換してください。
翻訳されたプロンプトのみを出力してください。
日本語テキスト: {japanese_text}"""
}
]
})
response = bedrock_runtime.invoke_model(modelId=CLAUDE_MODEL, body=body)
response_body = json.loads(response['body'].read())
return response_body['content'][0]['text'].strip()
def resize_image(image, max_size=1536):
width, height = image.size
if width > max_size or height > max_size:
ratio = max_size / max(width, height)
new_size = (int(width * ratio), int(height * ratio))
return image.resize(new_size, Image.LANCZOS)
return image
if st.button("画像生成"):
if japanese_prompt:
with st.spinner('プロンプトを翻訳中...'):
english_prompt = translate_to_english(japanese_prompt)
st.write("翻訳されたプロンプト:", english_prompt)
with st.spinner('画像を生成中...'):
try:
body = {
"prompt": english_prompt,
"mode": generation_mode
}
if generation_mode == "image-to-image":
if uploaded_file is not None:
image = Image.open(uploaded_file)
image = resize_image(image)
buffered = io.BytesIO()
image.save(buffered, format="PNG")
image_bytes = buffered.getvalue()
base64_image = base64.b64encode(image_bytes).decode("utf-8")
body["image"] = base64_image
body["strength"] = 0.75
else:
st.error("画像をアップロードしてください。")
st.stop()
response = bedrock_runtime.invoke_model(
modelId=STABILITY_MODELS[selected_model],
body=json.dumps(body)
)
output_body = json.loads(response["body"].read().decode("utf-8"))
base64_output_image = output_body["images"][0]
image_data = base64.b64decode(base64_output_image)
image = Image.open(io.BytesIO(image_data))
st.image(image, caption=f"生成された画像 (モデル: {selected_model}, モード: {generation_mode})")
output_dir = "output"
if not os.path.exists(output_dir):
os.makedirs(output_dir)
i = 1
while os.path.exists(os.path.join(output_dir, f"img_{i}.png")):
i += 1
image_path = os.path.join(output_dir, f"img_{i}.png")
image.save(image_path)
st.success(f"生成された画像が {image_path} に保存されました")
except Exception as e:
st.error(f"エラーが発生しました: {str(e)}")
if 'output_body' in locals():
st.write("APIレスポンス全体:", output_body)
else:
st.warning("プロンプトを入力してください。")
実行結果
テキストから画像生成
画像から画像生成
先ほど生成した画像を元に別の画像を生成させてみました。
ユースケース
ブログでは各モデルのユースケースが記載されていたので、それぞれに適したシーンで是非検証してみたいですね。
業界 | Stable Image Ultra | Stable Diffusion 3 Large | Stable Image Core |
---|---|---|---|
広告とマーケティング | • 高級ブランドの広告 • フォトリアリスティックな製品展示 |
• 高品質の製品マーケティング画像 • 印刷キャンペーン |
• ソーシャルメディア広告のビジュアルコンセプトの迅速なA/Bテスト |
電子商取引 | • 高級製品のカスタマイズ • オーダーメイド製品 |
• 電子商取引サイト全体のほとんどの製品ビジュアル | • 商品画像の迅速な生成 • リストの最新状態の維持 |
メディアとエンターテイメント | • 超リアルなキーアート • マーケティング資料 • ゲームビジュアル |
• 環境テクスチャ • キャラクターアート • ゲーム内アセット |
• 迅速なプロトタイピング • コンセプトアートの探索 |
公式ドキュメント
- Stable Image Ultra
- Stable Diffusion 3 Large
- Stable Image Core