Alibaba Wan 2.7入門 — Thinking Modeで高精度な画像・動画生成をAPIで実装する

Last updated at 2026-04-07Posted at 2026-04-07

はじめに

2026年4月6日、Alibaba CloudはAI画像・動画生成モデル Wan 2.7 をリリースしました。最大の特徴は「Thinking Mode」の導入です。生成前にChain-of-Thought推論を実行し、プロンプトを論理的に分析・計画してから生成するアーキテクチャを採用しています。

この記事で学べること

Wan 2.7の主要機能とThinking Modeの仕組み
Together AI経由でのAPI利用方法（Pythonサンプルコード付き）
Wan 2.1からの改善点と活用シーン

対象読者

AI画像・動画生成APIに興味があるエンジニア
Wan 2.1など旧バージョンから移行を検討している方
高品質な画像・動画を自動生成したい開発者

前提環境

Python 3.10以上
Together AI APIキー（together.ai で取得）

TL;DR

Wan 2.7はThinking Mode（CoT推論）で生成品質が大幅向上
画像Pro最大4K（4096×4096）、動画最大15秒に対応
Together AIで**$0.10/秒**から利用可能、Python SDKで簡単に実装できる
テキストレンダリング・精密カラー制御・千面リアリズムの3大新機能を搭載

Wan 2.7の概要

Wan 2.7はAlibaba Cloudが開発するマルチモーダルAI生成モデルです。画像生成と動画生成を単一モデルで統合しており、2026年4月6日にTogether AIなどのプロバイダー経由で一般公開されました。

アーキテクチャ

ベース: Diffusion Transformer (DiT) + Flow Matching
前バージョン（Wan 2.2）は総27B/活性14B MoE構造
パラメータ数は非公開（公式未発表）

対応タスク

タスク	説明
Text-to-Image	テキストプロンプトから画像生成
Text-to-Video	テキストプロンプトから動画生成
Image-to-Video	静止画像を動画に変換
Reference-to-Video	参照画像から一貫した動画を生成
Video Edit	既存動画の編集・スタイル変換

Thinking Mode: 最大の新機能

Thinking Modeは、Wan 2.7の中核となる機能です。生成前にChain-of-Thought（CoT）推論を実行し、プロンプトを深く理解してから生成します。

処理フロー

プロンプト解析: テキストセマンティクスと視覚セマンティクスを共有潜在空間にマッピング
構図計画: 被写体の配置・カメラアングル・ライティングを計画
推論検証: 計画の整合性を内部チェック
生成実行: 検証済みの計画に基づいて画像・動画を生成

効果

プロンプト忠実度の向上: 複雑なプロンプトでも意図を正確に反映
アーティファクト削減: 歪み・ノイズ・不自然な物体の出現を抑制
構図一貫性の改善: 複数オブジェクト間の空間関係が自然になる

3つの新機能

1. 千面リアリズム（Thousand-Face Realism）

AI生成画像でよく問題になる「同一顔問題」（すべての人物が似た顔になる現象）を解消する機能です。

顔の骨格構造・目の詳細・固有の特徴を個別に制御できるため、多様な人物を含むシーンでも各人の顔が自然に差別化されます。

2. 精密カラー制御

色指定の精度が大幅に向上しました。

# カラー制御の例（プロンプトに色指定を含める）
prompt = """
A modern office with exact color specifications:
- Walls: #F5F5F0 (warm white)
- Furniture: #2C3E50 (dark navy)  
- Accent: #3498DB (bright blue)
Color ratio: 60% white, 30% navy, 10% blue
"""

対応する指定方法:

HEXコード: #3B82F6 のような直接指定
カラーパレット: 複数色の組み合わせと比率
参照画像からの色抽出: 既存画像の配色を自動抽出して適用

3. 高精度テキストレンダリング

生成画像内のテキスト描画が大幅に改善されました。

機能	仕様
最大トークン数	3,000以上
対応言語	12言語
対応コンテンツ	通常テキスト・数式・表・学術コンテンツ

広告バナー・資料・教材など、テキストを含む画像生成での活用が期待されます。

Wan 2.6との比較

Wan 2.7の直前バージョンはWan 2.6です。主な改善点を整理します。

項目	Wan 2.6	Wan 2.7
Thinking Mode	なし	あり（CoT推論）
動画最大長	約10秒	15秒
最大解像度（画像）	2K相当	4K（4096×4096、Image Proのみ）
顔制御	基本的	骨格・目・特徴レベル
カラー制御	基本的	HEX/パレット指定
テキストレンダリング	限定的	3,000トークン・12言語
参照画像数	最大3枚	最大9枚
ネイティブ音声	なし	あり
参照動画数	1本	最大5本

Together AI でのAPI実装

Together AIはWan 2.7の主要APIプロバイダーです¹。

インストール

pip install together

環境変数の設定

export TOGETHER_API_KEY="your-api-key"

Text-to-Video 基本実装

import together
import urllib.request
import time
import os

client = together.Together()

def generate_video_wan27(prompt: str, duration: int = 5) -> bytes:
    """
    Wan 2.7でテキストから動画を生成する（非同期ジョブ方式）
    
    Args:
        prompt: 動画の内容を説明するテキスト
        duration: 動画の長さ（秒、2〜15秒）
    Returns:
        動画データ（バイト列）
    """
    # ジョブを作成（非同期）
    job = client.videos.create(
        model="Wan-AI/wan2.7-t2v",
        prompt=prompt,
        resolution="720P",
        ratio="16:9",
        seconds=str(duration),
    )
    
    # ジョブ完了までポーリング
    while True:
        result = client.videos.retrieve(job.id)
        if result.status == "completed":
            video_url = result.output.url
            break
        elif result.status == "failed":
            raise RuntimeError(f"動画生成に失敗しました: {result}")
        time.sleep(5)
    
    # 動画URLからダウンロード
    with urllib.request.urlopen(video_url) as res:
        video_data = res.read()
    return video_data

# 使用例
prompt = """
A cherry blossom tree in full bloom, petals gently falling.
Thinking mode: plan a composition with foreground, midground, and sky.
Soft morning light, cinematic quality.
"""

video_bytes = generate_video_wan27(prompt, duration=5)

# ファイルに保存
with open("output.mp4", "wb") as f:
    f.write(video_bytes)

print(f"動画を生成しました: {len(video_bytes) / 1024:.1f} KB")

Thinking Mode を明示的に活用するプロンプト設計

Thinking Modeは自動で動作しますが、プロンプトに構図の指示を含めることでより効果的になります。

# Thinking Modeを意識したプロンプト設計
def create_thinking_prompt(
    subject: str,
    style: str,
    color_palette: list[str],
    composition_notes: str
) -> str:
    """
    Wan 2.7のThinking Modeを活かすプロンプトを構築する
    """
    colors_str = ", ".join(color_palette)
    
    return f"""
{subject}

Style: {style}
Color palette: {colors_str}
Composition: {composition_notes}

Generate with careful planning of:
- Subject placement and scale
- Lighting direction and intensity  
- Background depth and detail level
- Color distribution matching the specified palette
"""

# 例: 商品写真生成
prompt = create_thinking_prompt(
    subject="A luxury wristwatch on a dark wooden surface",
    style="Product photography, studio lighting, high detail",
    color_palette=["#1A1A1A (background)", "#C0A060 (gold)", "#FFFFFF (highlight)"],
    composition_notes="Rule of thirds, watch centered slightly left, reflection visible"
)

video_bytes = generate_video_wan27(prompt, duration=3)

料金の目安

Together AIでのWan 2.7の料金²:

プロバイダー	解像度	5秒あたりの料金
Together AI	720p-1080p	$0.50（$0.10/秒）
WaveSpeed AI	720p	$0.50（$0.10/秒）
WaveSpeed AI	1080p	$0.75（$0.15/秒）

活用シーン

1. 商品・ECサイト向け画像生成

HEXカラー制御でブランドカラーに忠実な商品画像を自動生成できます。

2. マーケティング動画

15秒の動画生成に対応しており、SNS向けショート動画や広告素材として活用できます。

3. 教育・資料作成

3,000トークン対応の高精度テキストレンダリングで、図解や説明付き画像の生成が可能です。

4. 多人数シーンの描写

千面リアリズムにより、チーム写真・イベントシーンなど複数の人物が登場するコンテンツで自然な仕上がりが得られます。

注意点

APIのアクセス制限: 現時点（2026年4月）では、Together AIでText-to-Videoエンドポイント（Wan-AI/wan2.7-t2v）が公開されています。Image-to-VideoやReference-to-Videoは他プロバイダー（WaveSpeed AI等）で利用可能ですが、APIアクセス方法は各プロバイダーのドキュメントを参照してください。

Thinking Modeの処理時間: CoT推論を内部で実行するため、従来モデルより生成時間が長くなる場合があります。バッチ処理時はタイムアウト設定を余裕を持って設定することを推奨します。

まとめ

Thinking Mode（CoT推論）によりプロンプト忠実度・構図一貫性が大幅向上
画像Pro 4K・動画15秒対応で、プロダクション品質のコンテンツ生成が可能
Together AI経由で$0.10/秒から利用でき、Python SDKで簡単に実装できる
精密カラー制御・千面リアリズム・高精度テキストレンダリングの3機能が実用的なユースケースを拡大

次のステップとして、WaveSpeed AIでのImage-to-VideoやReference-to-Videoも公式ドキュメントをもとに試してみる価値があります。

参考リンク

Together AI - Wan 2.7 Now Available — APIアクセス方法とエンドポイント
WaveSpeed AI - Wan 2.7 — 各モデルの仕様・料金
ABNewsWire - Wan 2.7 発表 — 公式発表内容
WaveSpeed AI Blog - Wan 2.7 vs 2.6 — バージョン比較

Together AI - Wan 2.7 Now Available（2026年4月） ↩
WaveSpeed AI - Wan 2.7（2026年4月時点の料金） ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up