Qwen-Image-Edit-2509 プロンプト完全攻略ガイド
StableDiffusionとの違いから、英語/中国語ネガティブプロンプトまで
ねらい
Qwen-Image-Edit-2509を使った画像編集で、プロンプトの書き方がわからない、StableDiffusionの重み付け構文が使えるのか疑問、英語と中国語以外の言語はどうなのか...そんな疑問を一気に解決します。
対象
- StableDiffusion経験者でQwen-Imageに乗り換えを検討している方
- プロンプトエンジニアリングの基礎は理解している方
- ComfyUI/Diffusersでの利用を想定している方
ゴール
この記事を読み終える頃には、Qwen-Image-Edit-2509のプロンプトを自在に書けるようになり、汎用的なネガティブプロンプトも手元に揃っている状態になります。
TL;DR
- 重み付け構文(
:0.5、(text:1.2)など)は公式ではサポートされていない - 対応言語は英語・中国語がベスト、日本語・韓国語・イタリア語等も認識可能
- プロンプトは自然言語で書く(タグの羅列よりも文章形式が有効)
- ネガティブプロンプトは空白スペース
" "が推奨、特定の除外をしたい場合のみ記載
1. StableDiffusionとの構文比較:重み付けは使えるのか?
結論:公式サポートはなし
StableDiffusionやComfyUIでおなじみの重み付け構文について、結論から言うとQwen-Imageでは公式にはサポートされていません。
StableDiffusionの場合:
a beautiful woman, (red hair:1.5), detailed eyes, [blurry background:0.3]
こういった(keyword:weight)や[keyword:weight]形式の重み付け構文は、A1111やComfyUIのフロントエンドが解釈しているもので、モデル自体の機能ではありません。
Qwen-Imageの場合:
Qwen-ImageはMMDiT(Multimodal Diffusion Transformer)アーキテクチャを採用しており、テキストエンコーダーにQwen2.5-VLを使用しています。これは自然言語を理解するVision-Language Modelであり、重み付け構文を解釈する仕組みは組み込まれていません。
じゃあどうやって強調するの?
Qwen-Imageでは、自然言語で強調を表現するのが王道です。
| やりたいこと | StableDiffusion | Qwen-Image |
|---|---|---|
| 赤髪を強調 | (red hair:1.5) |
with vibrant, striking red hair |
| 背景をぼかす | [blurry background:0.3] |
soft, blurred background |
| 照明を強調 | (dramatic lighting:1.3) |
with dramatic cinematic lighting |
| 要素を弱める | [element:0.5] |
ネガティブプロンプトに入れるか、記載しない |
公式が示している強調方法:
Qwen公式リポジトリでは、以下のような「positive_magic」を末尾に付加することを推奨しています:
positive_magic = {
"en": ", Ultra HD, 4K, cinematic composition.",
"zh": ", 超清,4K,电影级构图."
}
つまり、クオリティを上げたければ「Ultra HD, 4K」のような品質タグを追加し、スタイルを変えたければそれを自然言語で詳細に記述する、というアプローチです。
2. 言語サポート:英語と中国語以外はダメなの?
対応言語一覧
ComfyUI公式ドキュメントによると、Qwen-Imageは以下の言語をサポートしています:
- 英語(English) ← 最も安定
- 中国語(Chinese) ← 英語と同等に安定、テキスト描画は最強
- 日本語(Japanese) ← 認識可能
- 韓国語(Korean) ← 認識可能
- イタリア語(Italian) ← 認識可能
- その他ヨーロッパ言語
"Set your prompt in the CLIP Text Encoder node; currently, it supports at least English, Chinese, Korean, Japanese, Italian, etc."
— ComfyUI公式ドキュメント
言語選択のベストプラクティス
基本方針:英語または中国語を使う
日本語で「かわいい女の子が花畑にいる」と書いても認識はされますが、プロンプトの解釈精度と出力品質の観点から、英語か中国語で書くのがベターです。
テキスト描画の場合は中国語が最強
Qwen-Imageの大きな特徴として、画像内テキスト描画の精度が非常に高いことが挙げられます。特に中国語テキストの描画精度はベンチマーク(ChineseWord: 94.1)で圧倒的なスコアを記録しています。
# 英語テキストを描画
A sign reading "Welcome to Tokyo"
# 中国語テキストを描画
一个写着"欢迎光临"的招牌
# 混在もOK
A poster with "通义千问" written in neon lights
3. プロンプトの書き方:自然言語が正義
StableDiffusionからの移行者へ
StableDiffusionでは「タグの羅列」スタイルが主流でした:
1girl, red hair, blue eyes, detailed, masterpiece, best quality, 8k,
ultra detailed, highly detailed, beautiful lighting
Qwen-Imageでは、これを自然な文章に変換します:
A young woman with vibrant red hair and striking blue eyes,
captured in a cinematic composition with beautiful natural lighting.
Ultra HD, 4K quality.
推奨プロンプト構造
Qwen-Imageのプロンプトは、以下の順序で構成すると効果的です:
[被写体] → [シーン/環境] → [スタイル/画風] → [テキスト(必要な場合)] → [品質タグ]
実例:
A futuristic sports car, photorealistic style, parked under neon city lights,
reflections on wet streets, cinematic lighting, "Night Racer" in metallic chrome
text on the hood. Ultra HD, 4K, cinematic composition.
プロンプトの長さ
推奨は50〜200文字程度。短すぎると情報不足、長すぎると解釈の優先順位が曖昧になります。
"Optimal prompt length falls between 50-200 characters. Shorter prompts lack necessary detail while longer prompts introduce confusion."
4. 画像編集専用プロンプト:Qwen-Image-Edit-2509の真骨頂
Qwen-Image-Edit-2509は画像編集に特化したモデルです。「何を変えるか」「何を保持するか」を明確に指示するのがコツ。
編集系プロンプトのキーワード集
置換系(Replace):
Replace X with Y
Change X to Y
Transform X into Y
追加系(Add):
Add X to the image
Insert X in the scene
Place X on/near/behind Y
削除系(Remove):
Remove X from the image
Delete the X
Erase the X
保持系(Preserve):
Preserve XXX
Leave everything else unchanged
Keep the background intact
Maintain the original lighting
視点変換(View):
Obtain the front view
Rotate to show the back
Change to a side view
実践例
背景変更:
Transform the background to a sunset beach while preserving the person's appearance and pose.
スタイル変換:
Convert this photo into Studio Ghibli anime style while maintaining the person's identity.
テキスト編集:
Change the text "SALE" to "OPEN" while keeping the same font style and color.
ポーズ変更(ControlNet連携):
Change the person's pose to match the keypoint map while preserving their face and clothing.
5. ネガティブプロンプト:汎用テンプレート
公式の推奨
Qwen公式は、ネガティブプロンプトを使用しない場合は空白スペースを入れることを推奨しています:
negative_prompt = " " # Recommended if you don't use a negative prompt.
これは""(空文字列)ではなく" "(スペース1つ)である点に注意。
汎用ネガティブプロンプト(英語)
特定の要素を除外したい場合の汎用テンプレート:
基本セット:
blurry, ugly, low quality, distorted, deformed
拡張セット:
blurry, ugly, low quality, distorted, deformed, watermark, text overlay,
cropped, out of frame, bad anatomy, bad proportions, duplicate,
error, extra limbs, mutation, disfigured
人物写真向け:
bad anatomy, distorted face, extra fingers, mutated hands, poorly drawn hands,
poorly drawn face, ugly, blurry, low quality, watermark
風景/製品向け:
blurry, low resolution, overexposed, underexposed, artifacts, compression artifacts,
watermark, text, ugly, distorted perspective
汎用ネガティブプロンプト(中国語)
基本セット:
模糊,丑陋,低质量,变形,扭曲
拡張セット:
模糊,丑陋,低质量,变形,扭曲,水印,文字叠加,裁剪,超出画框,
解剖错误,比例失调,重复,错误,多余的肢体,突变,毁容
人物向け:
解剖错误,脸部扭曲,手指过多,手部变异,手部绘制不良,
脸部绘制不良,丑陋,模糊,低质量,水印
風景/製品向け:
模糊,低分辨率,过曝,欠曝,伪影,压缩伪影,
水印,文字,丑陋,透视扭曲
6. 汎用ポジティブプロンプト:コピペで使えるテンプレート
クオリティブースター(英語)
シンプル版:
Ultra HD, 4K, cinematic composition.
詳細版:
Ultra HD, 4K resolution, cinematic composition, professional photography,
masterful lighting, sharp focus, high detail, stunning quality.
クオリティブースター(中国語)
シンプル版:
超清,4K,电影级构图。
詳細版:
超清,4K分辨率,电影级构图,专业摄影,大师级光线,
锐利聚焦,高度细节,惊艳画质。
スタイル別テンプレート
写実的(Photorealistic):
英語: photorealistic, natural lighting, detailed textures, realistic shadows
中国語: 照片级真实感,自然光线,细腻纹理,真实阴影
アニメ/イラスト風:
英語: anime style, vibrant colors, clean lines, detailed illustration
中国語: 动漫风格,鲜艳色彩,干净线条,精细插画
シネマティック:
英語: cinematic, dramatic lighting, film grain, anamorphic lens
中国語: 电影感,戏剧性光线,胶片颗粒,变形镜头
製品撮影:
英語: product photography, studio lighting, clean background, professional
中国語: 产品摄影,工作室灯光,干净背景,专业级
7. パラメータ設定ガイド
プロンプトと並んで重要なのがパラメータ設定です。
主要パラメータ
| パラメータ | 推奨値 | 説明 |
|---|---|---|
num_inference_steps |
50(最終)/ 30(テスト) | 推論ステップ数。多いほど高品質だが遅い |
true_cfg_scale |
4.0〜5.0 | プロンプトへの忠実度。高すぎると不自然に |
guidance_scale |
1.0〜4.0 | ガイダンス強度(Edit-2509では1.0推奨) |
Lightning LoRAで高速化
Qwen-Image-Lightning LoRAを使用すると、4〜8ステップで高品質な出力が可能です:
# 4ステップ版
pipeline.load_lora_weights("Qwen-Image-Lightning-4steps-V1.0.safetensors")
inputs["num_inference_steps"] = 4
# 8ステップ版
pipeline.load_lora_weights("Qwen-Image-Lightning-8steps-V1.1.safetensors")
inputs["num_inference_steps"] = 8
8. トラブルシューティング
プロンプトが効かない
確認事項:
- 英語/中国語で書いているか
- 自然言語形式になっているか(タグ羅列ではなく)
- 被写体が最初に来ているか
対処法:
- Prompt Enhancement Toolの利用を検討(公式提供)
- プロンプトを単純化して問題箇所を特定
テキストが正しく描画されない
確認事項:
- テキストをダブルクォートで囲んでいるか
- フォントスタイルや色を指定しているか
# 良い例
A sign with "COFFEE" written in bold golden letters
# 改善例
A rustic wooden sign with "COFFEE SHOP" written in elegant script,
warm brown text on weathered background
編集結果が不安定
公式の注意事項として、**Prompt Rewriting(プロンプト書き換え)**を使用しないと編集結果が不安定になることが報告されています。
from tools.prompt_utils import polish_edit_prompt
prompt = polish_edit_prompt(prompt, pil_image)
まとめ
Qwen-Image-Edit-2509は、StableDiffusionとは異なるアプローチでプロンプトを解釈します。
覚えておくべき3つのポイント:
- 重み付け構文は使わない → 自然言語で表現する
- 英語か中国語を使う → 日本語も認識するが精度は下がる
- ネガティブプロンプトは控えめに → 空白スペースが基本、必要な場合のみ追加
StableDiffusionの経験がある方は、最初は違和感があるかもしれませんが、自然言語の理解力が高いので、慣れると「こっちの方が直感的だな」と感じるはずです。