Qwen-Image-2512ってなんだ？〜オープンソース最強の画像生成AIを完全攻略〜

Posted at 2026-01-18

この記事の対象読者

Pythonの基本文法を理解していて、画像生成AIに興味がある方
Stable DiffusionやFLUXなど、他の画像生成モデルを触ったことがある方
ComfyUIやDiffusersを使った経験がある（または使いたい）方
日本語や中国語のテキストを含む画像を生成したい方

この記事で得られること

Qwen-Image-2512の特徴と他モデルとの違いの理解
高品質な画像を生成するためのプロンプト構成テクニック
環境別の設定ファイルテンプレート（開発・本番・テスト）
日本語プロンプトの活用方法と注意点
よくあるエラーと対処法

この記事で扱わないこと

ComfyUIやDiffusersの環境構築手順（公式ドキュメント参照）
GPUドライバやCUDAの設定方法
ファインチューニングやLoRA学習の詳細

1. Qwen-Image-2512との出会い

「AIで生成した画像、どうしても"AIっぽさ"が抜けないんだよな...」

FLUXやStable Diffusionで人物画像を生成していて、そう感じたことはないだろうか。肌がツルツルしすぎていたり、目が妙に輝いていたり、いわゆる「AI生成っぽい違和感」がどうしても残る。

2025年12月31日、Alibaba Cloudの通義千問チームがリリースしたQwen-Image-2512は、その問題を正面から解決しに来たモデルだ。AI Arena（ブラインド評価プラットフォーム）で10,000回以上の比較評価を経て、オープンソースモデルとして首位を獲得。クローズドソースモデルとも互角に渡り合う性能を持つ。

初めてこのモデルで人物画像を生成したとき、正直驚いた。毛穴、肌の質感、髪の毛1本1本の描写が、従来のオープンソースモデルとは一線を画している。特に中国語と日本語のテキストレンダリング精度は、他のどのモデルも追随できないレベルだ。

ここでは、この「モンスター級」のモデルを使いこなすためのプロンプトテクニックを、公式ドキュメントと実験結果を元に解説していく。

ここまでで、Qwen-Image-2512がどんなモデルか、なんとなくイメージできただろうか。次は、このモデルの技術的な背景と特徴を見ていこう。

2. 前提知識の確認

本題に入る前に、この記事で使う用語を整理しておこう。

2.1 Text-to-Image（T2I）モデルとは

テキストの説明文から画像を生成するAIモデルのこと。Stable Diffusion、DALL-E、Midjourneyなどが代表例。Qwen-Image-2512もこのカテゴリに属する。

2.2 Diffusion Model（拡散モデル）とは

ノイズから徐々に画像を「復元」していく方式の生成モデル。ランダムなノイズ画像から始めて、少しずつノイズを除去しながら目的の画像に近づけていく。Qwen-Image-2512はMMDiT（Multimodal Diffusion Transformer）アーキテクチャを採用している。

2.3 Guidance Scale（CFG）とは

Classifier-Free Guidance Scaleの略。プロンプトにどれだけ忠実に画像を生成するかを制御するパラメータ。値が高いほどプロンプトに忠実だが、不自然な画像になりやすい。値が低いほど自由な解釈になる。

2.4 Inference Steps（推論ステップ数）とは

ノイズ除去を何回繰り返すかの回数。多いほど高品質だが、生成時間が長くなる。

これらの用語が押さえられたら、次に進もう。

3. Qwen-Image-2512の特徴と進化点

3.1 モデルの基本スペック

項目	仕様
パラメータ数	20B（200億）
アーキテクチャ	MMDiT（Multimodal Diffusion Transformer）
テキストエンコーダ	Qwen2.5-VL（7Bパラメータ）
ネイティブ解像度	1328×1328（約1.6メガピクセル）
ライセンス	Apache 2.0（商用利用可）
リリース日	2025年12月31日

3.2 前モデル（8月版）からの進化点

Qwen-Image-2512は「2512」という名前の通り、2025年12月版のアップデートだ。8月版からの主な改善点は3つある。

1. 人物のリアリズム向上

従来のAI生成画像にありがちな「美顔フィルターをかけたような不自然さ」が大幅に軽減された。シワ、毛穴、肌のテクスチャが自然に描写され、年齢に応じた特徴も正確に反映される。

2. 自然物のディテール強化

風景、動物の毛並み、水面の反射など、自然物の細部描写が格段に向上。特に髪の毛は1本1本が区別できるレベルで描画される。

3. テキストレンダリングの精度向上

画像内に文字を配置する際の精度が向上。特に中国語（漢字）と日本語の描画能力は、現時点でオープンソースモデル中最高レベルだ。

背景がわかったところで、抽象的な概念から順に、具体的なプロンプト構成を見ていこう。

4. プロンプト構成の基本原則

4.1 プロンプトの構造化

Qwen-Image-2512のMMDiTアーキテクチャは、プロンプト内の位置と具体性に基づいて情報を重み付けする。つまり、プロンプトの先頭に書いた要素ほど重視される。

効果的なプロンプトの構造は以下の順序だ：

被写体（Subject）→ スタイル（Style）→ 詳細（Details）→ 構図（Composition）→ 照明（Lighting）

良いプロンプトの例：

Young woman with auburn hair in casual denim jacket, 
editorial photography style, 
natural makeup, 
soft focus background, 
golden hour lighting, high detail

悪いプロンプトの例：

Make me a nice picture of someone pretty with good lighting

違いは明確だ。良いプロンプトは被写体、スタイル、ディテール、構図、照明が明確に指定されている。悪いプロンプトは曖昧で、モデルに「解釈の余地」を与えすぎている。

4.2 公式推奨のプロンプト強化フレーズ

Qwen公式リポジトリのprompt_utils.pyには、プロンプトを強化するためのシステムプロンプトが含まれている。その中で推奨されているアプローチは以下の通りだ。

英語プロンプト用のマジックフレーズ：

, Ultra HD, 4K, cinematic composition.

中国語プロンプト用のマジックフレーズ：

, 超清，4K，电影级构图.

これらをプロンプトの末尾に追加するだけで、出力品質が向上する。

4.3 構造化プロンプトのテンプレート

より複雑な画像を生成する場合は、カテゴリ別に情報を整理する「構造化プロンプト」が効果的だ。

Subject: [被写体の詳細] | 
Pose: [ポーズ] | 
Clothing: [服装] | 
Camera: [カメラアングル] | 
Environment: [背景・環境] | 
Lighting: [照明条件] | 
Mood: [雰囲気]

実例：

Subject: young woman, professional model | 
Pose: walking forward, confident stride | 
Clothing: flowing white dress | 
Camera: medium shot, eye level | 
Environment: dense forest, autumn colors | 
Lighting: golden hour, backlit | 
Mood: serene, ethereal

この構造化アプローチは、長い説明文より効果的だ。モデルに明確で実行可能な指示を与えられる。

基本概念が理解できたところで、これらの抽象的な原則を具体的なコードで実装していこう。

5. 実際に使ってみよう

5.1 環境構築

# 必要なパッケージのインストール
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121
pip install git+https://github.com/huggingface/diffusers
pip install transformers accelerate

5.2 設定ファイルの準備

以下の3種類の設定ファイルを用意している。用途に応じて選択してほしい。

開発環境用（config.yaml）

# config.yaml - 開発環境用（このままコピーして使える）
# 高速なイテレーションを優先した設定

model:
  name: "Qwen/Qwen-Image-2512"
  torch_dtype: "float16"          # メモリ効率重視
  device_map: "auto"

generation:
  num_inference_steps: 20         # 高速プレビュー用
  guidance_scale: 5.0             # バランス重視
  true_cfg_scale: 4.0             # 推奨値
  seed: null                      # ランダム

output:
  width: 1024
  height: 1024
  format: "png"
  output_dir: "./outputs/dev"

prompt:
  enhance: true                   # プロンプト強化を有効化
  magic_suffix_en: ", Ultra HD, 4K, cinematic composition."
  magic_suffix_zh: ", 超清，4K，电影级构图."

本番環境用（config.production.yaml）

# config.production.yaml - 本番環境用（高品質出力向け）
# 品質最優先の設定

model:
  name: "Qwen/Qwen-Image-2512"
  torch_dtype: "bfloat16"         # 最高品質
  device_map: "auto"

generation:
  num_inference_steps: 50         # 最高品質
  guidance_scale: 5.0             # 安定性重視
  true_cfg_scale: 4.0             # 公式推奨値
  seed: null                      # 本番はランダム

output:
  width: 1328                     # ネイティブ解像度
  height: 1328                    # ネイティブ解像度
  format: "png"
  output_dir: "/var/output/production"

prompt:
  enhance: true
  magic_suffix_en: ", Ultra HD, 4K, cinematic composition."
  magic_suffix_zh: ", 超清，4K，电影级构图."

logging:
  level: "INFO"
  file: "/var/log/qwen-image/app.log"

テスト環境用（config.test.yaml）

# config.test.yaml - テスト/CI用（再現性重視）
# 軽量かつ再現可能な設定

model:
  name: "Qwen/Qwen-Image-2512"
  torch_dtype: "float16"
  device_map: "auto"

generation:
  num_inference_steps: 15         # 最小限
  guidance_scale: 5.0
  true_cfg_scale: 4.0
  seed: 42                        # 固定シード（再現性）

output:
  width: 512                      # 軽量出力
  height: 512
  format: "png"
  output_dir: "./outputs/test"

prompt:
  enhance: false                  # テストでは無効化
  magic_suffix_en: ""
  magic_suffix_zh: ""

5.3 基本的な使い方

"""
Qwen-Image-2512 画像生成サンプル
使い方: python generate_image.py
必要なパッケージ: pip install diffusers torch transformers accelerate
"""
import torch
import yaml
from pathlib import Path
from diffusers import DiffusionPipeline


def load_config(config_path: str = "config.yaml") -> dict:
    """設定ファイルを読み込む"""
    with open(config_path, "r", encoding="utf-8") as f:
        return yaml.safe_load(f)


def create_pipeline(config: dict) -> DiffusionPipeline:
    """パイプラインを初期化"""
    model_name = config["model"]["name"]
    torch_dtype = getattr(torch, config["model"]["torch_dtype"])
    
    pipe = DiffusionPipeline.from_pretrained(
        model_name,
        torch_dtype=torch_dtype
    )
    pipe = pipe.to("cuda")
    return pipe


def enhance_prompt(prompt: str, config: dict, lang: str = "en") -> str:
    """プロンプトを強化"""
    if not config["prompt"]["enhance"]:
        return prompt
    
    suffix_key = f"magic_suffix_{lang}"
    suffix = config["prompt"].get(suffix_key, "")
    return prompt + suffix


def generate_image(
    pipe: DiffusionPipeline,
    prompt: str,
    config: dict,
    negative_prompt: str = " "
) -> "PIL.Image":
    """画像を生成"""
    gen_config = config["generation"]
    out_config = config["output"]
    
    # シード設定
    generator = None
    if gen_config.get("seed") is not None:
        generator = torch.Generator(device="cuda").manual_seed(gen_config["seed"])
    
    # 生成実行
    result = pipe(
        prompt=prompt,
        negative_prompt=negative_prompt,
        width=out_config["width"],
        height=out_config["height"],
        num_inference_steps=gen_config["num_inference_steps"],
        guidance_scale=gen_config["guidance_scale"],
        true_cfg_scale=gen_config["true_cfg_scale"],
        generator=generator
    )
    
    return result.images[0]


def main():
    # 設定読み込み
    config = load_config("config.yaml")
    
    # パイプライン初期化
    print("Loading model...")
    pipe = create_pipeline(config)
    print("Model loaded successfully!")
    
    # プロンプト定義
    prompt = """
    A Chinese female college student, around 20 years old, 
    with a very short haircut that conveys a gentle, artistic vibe. 
    She has fair skin and delicate features.
    """
    
    # プロンプト強化
    enhanced_prompt = enhance_prompt(prompt, config, lang="en")
    print(f"Enhanced prompt: {enhanced_prompt[:100]}...")
    
    # 画像生成
    print("Generating image...")
    image = generate_image(pipe, enhanced_prompt, config)
    
    # 保存
    output_dir = Path(config["output"]["output_dir"])
    output_dir.mkdir(parents=True, exist_ok=True)
    output_path = output_dir / f"output.{config['output']['format']}"
    image.save(output_path)
    print(f"Image saved to: {output_path}")


if __name__ == "__main__":
    main()

5.4 実行結果

上記のコードを実行すると、以下のような出力が得られる：

$ python generate_image.py
Loading model...
Model loaded successfully!
Enhanced prompt: A Chinese female college student, around 20 years old, with a very short haircut...
Generating image...
100%|██████████| 20/20 [00:12<00:00,  1.67it/s]
Image saved to: ./outputs/dev/output.png

5.5 よくあるエラーと対処法

エラー	原因	対処法
`CUDA out of memory`	GPUメモリ不足	`torch_dtype`を`float16`に変更、または解像度を下げる
`Model not found`	モデル名の誤り	`Qwen/Qwen-Image-2512`を確認
`RuntimeError: Expected all tensors to be on the same device`	デバイス不一致	`pipe.to("cuda")`を確認
生成画像がぼやける	ステップ数不足	`num_inference_steps`を30以上に
プロンプトが反映されない	CFG値が低すぎる	`guidance_scale`を5〜7に調整

基本的な使い方をマスターしたので、次は応用例を見ていこう。

6. ユースケース別ガイド

6.1 ユースケース1: 人物ポートレート生成

想定読者: SNS用のプロフィール画像や、ブログのサムネイルを作りたい人
推奨構成: ネイティブ解像度（1328×1328）、ステップ数35以上

"""人物ポートレート生成の最適化設定"""

def generate_portrait(pipe, subject_description: str) -> "PIL.Image":
    """人物ポートレートに最適化した生成"""
    
    # ポートレート用プロンプトテンプレート
    prompt_template = """
    {subject},
    portrait photography, professional headshot,
    soft studio lighting, neutral background,
    natural skin texture, detailed features,
    shallow depth of field, high detail,
    Ultra HD, 4K, cinematic composition.
    """
    
    prompt = prompt_template.format(subject=subject_description)
    
    # ポートレート用ネガティブプロンプト
    negative_prompt = (
        "smooth skin, airbrushed, doll-like, plastic, "
        "oversaturated, artificial, watermark"
    )
    
    return pipe(
        prompt=prompt,
        negative_prompt=negative_prompt,
        width=1328,
        height=1328,
        num_inference_steps=35,
        guidance_scale=5.0,
        true_cfg_scale=4.0,
    ).images[0]


# 使用例
portrait = generate_portrait(
    pipe,
    "45-year-old Asian businessman, wearing navy blazer"
)
portrait.save("portrait.png")

6.2 ユースケース2: テキスト入り画像（看板・ポスター）

想定読者: マーケティング素材やSNS投稿用の画像を作りたい人
推奨構成: 横長（1664×928）、ステップ数40以上、CFG値6〜8

"""テキスト入り画像生成"""

def generate_text_image(
    pipe,
    main_text: str,
    sub_text: str = "",
    style: str = "modern poster"
) -> "PIL.Image":
    """テキストを含む画像の生成"""
    
    # テキスト配置を明示したプロンプト
    prompt = f"""
    {style}, clean design,
    large title "{main_text}" at the top center,
    {"small text '" + sub_text + "' at the bottom," if sub_text else ""}
    clean sans-serif font, high contrast,
    professional layout, balanced composition,
    sharp text edges, readable typography,
    Ultra HD, 4K.
    """
    
    # テキスト生成用ネガティブプロンプト
    negative_prompt = (
        "blurry text, distorted letters, illegible, "
        "handwriting, cursive, watermark"
    )
    
    return pipe(
        prompt=prompt,
        negative_prompt=negative_prompt,
        width=1664,  # 横長
        height=928,
        num_inference_steps=40,  # テキストには高めのステップ数
        guidance_scale=7.0,      # テキストには高めのCFG
        true_cfg_scale=4.0,
    ).images[0]


# 使用例（英語テキスト）
poster_en = generate_text_image(
    pipe,
    main_text="OPEN NOW",
    sub_text="Coffee Shop - Est. 2025",
    style="vintage cafe signage"
)
poster_en.save("poster_en.png")

# 使用例（中国語テキスト）
poster_zh = generate_text_image(
    pipe,
    main_text="通义千问",
    sub_text="Alibaba Cloud",
    style="tech company banner"
)
poster_zh.save("poster_zh.png")

6.3 ユースケース3: 日本語プロンプトでの生成

想定読者: 日本語で直接プロンプトを書きたい人
推奨構成: 標準解像度、ステップ数28程度

"""日本語プロンプトでの画像生成"""

def generate_with_japanese_prompt(
    pipe,
    japanese_prompt: str
) -> "PIL.Image":
    """日本語プロンプトから画像を生成
    
    注意: 日本語プロンプトはある程度対応しているが、
    画像内に日本語テキストを描画するのは苦手。
    テキスト描画は英語または中国語推奨。
    """
    
    # 日本語プロンプト + 品質向上フレーズ
    enhanced_prompt = japanese_prompt + "、高品質、詳細、美しい"
    
    return pipe(
        prompt=enhanced_prompt,
        negative_prompt="低品質、ぼやけ、歪み",
        width=1024,
        height=1024,
        num_inference_steps=28,
        guidance_scale=5.0,
        true_cfg_scale=4.0,
    ).images[0]


# 使用例
image = generate_with_japanese_prompt(
    pipe,
    """
    カメラで撮影したスナップ写真。
    ちょっとゴチャゴチャした部屋で日本人のおじいちゃんとおばあちゃんが
    クッキーを食べている。晴れた日の昼で、窓の外には畑が見える。
    """
)
image.save("japanese_prompt_result.png")

日本語プロンプトの注意点：

シーンの説明は日本語でも高精度で理解される
画像内に日本語テキストを描画する指示は精度が低い
複雑な指示は英語に翻訳した方が確実

ユースケースが把握できたところで、この記事を読んだ後の学習パスを確認しよう。

7. 学習ロードマップ

この記事を読んだ後、次のステップとして以下をおすすめする。

初級者向け（まずはここから）

公式デモを試す
- Qwen Chat → 「Image Generation」を選択
- ブラウザから即座に試せる
ComfyUIワークフローを動かす
- ComfyUI公式ワークフロー
- GUIベースで直感的に操作可能

中級者向け（実践に進む）

Diffusersでカスタムパイプラインを構築
- この記事のコードをベースにカスタマイズ
- バッチ処理やAPI化に挑戦
パラメータ最適化を実験
- guidance_scale、num_inference_stepsの組み合わせ
- 用途別の最適値を探る

上級者向け（さらに深く）

LoRAアダプターの適用
- MajicBeauty LoRAなど
- 特定スタイルへの特化
Qwen-Image-Edit-2511との組み合わせ
- 生成した画像の編集・修正
- マルチ画像入力による合成

8. まとめ

この記事では、Qwen-Image-2512について以下を解説した：

モデルの特徴: 20Bパラメータ、Apache 2.0ライセンス、オープンソース最強の座
プロンプト構成: Subject→Style→Details→Composition→Lightingの順序
パラメータ設定: guidance_scale 5〜7、ステップ数は用途に応じて20〜50
日本語対応: シーン説明はOK、画像内テキスト描画は中国語/英語推奨

私の所感

正直なところ、Qwen-Image-2512は「ゲームチェンジャー」だと感じている。

これまでオープンソースの画像生成モデルは、商用クローズドモデルに対して常に「二番手」感があった。Stable Diffusionは柔軟だが品質で劣り、FLUXは高品質だがライセンスが複雑。

Qwen-Image-2512は、品質・柔軟性・ライセンスの3つを同時に満たした初めてのモデルかもしれない。特に、中国語・日本語圏のユーザーにとって、テキストレンダリング能力は革命的だ。

ぜひ、実際に触って「AIっぽくない」画像生成を体験してみてほしい。

参考文献

Qwen-Image-2512 公式ブログ - Alibaba Cloud
Qwen-Image GitHub - 公式リポジトリ
Hugging Face Model Card - モデル詳細
ComfyUI公式ワークフロー - ComfyUI統合ガイド
fal.ai Prompt Guide - APIプロンプトガイド

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up