はじめに
2026年4月6日、Alibaba CloudはAI画像・動画生成モデル Wan 2.7 をリリースしました。最大の特徴は「Thinking Mode」の導入です。生成前にChain-of-Thought推論を実行し、プロンプトを論理的に分析・計画してから生成するアーキテクチャを採用しています。
この記事で学べること
- Wan 2.7の主要機能とThinking Modeの仕組み
- Together AI経由でのAPI利用方法(Pythonサンプルコード付き)
- Wan 2.1からの改善点と活用シーン
対象読者
- AI画像・動画生成APIに興味があるエンジニア
- Wan 2.1など旧バージョンから移行を検討している方
- 高品質な画像・動画を自動生成したい開発者
前提環境
- Python 3.10以上
- Together AI APIキー(together.ai で取得)
TL;DR
- Wan 2.7はThinking Mode(CoT推論)で生成品質が大幅向上
- 画像Pro最大4K(4096×4096)、動画最大15秒に対応
- Together AIで**$0.10/秒**から利用可能、Python SDKで簡単に実装できる
- テキストレンダリング・精密カラー制御・千面リアリズムの3大新機能を搭載
Wan 2.7の概要
Wan 2.7はAlibaba Cloudが開発するマルチモーダルAI生成モデルです。画像生成と動画生成を単一モデルで統合しており、2026年4月6日にTogether AIなどのプロバイダー経由で一般公開されました。
アーキテクチャ
- ベース: Diffusion Transformer (DiT) + Flow Matching
- 前バージョン(Wan 2.2)は総27B/活性14B MoE構造
- パラメータ数は非公開(公式未発表)
対応タスク
| タスク | 説明 |
|---|---|
| Text-to-Image | テキストプロンプトから画像生成 |
| Text-to-Video | テキストプロンプトから動画生成 |
| Image-to-Video | 静止画像を動画に変換 |
| Reference-to-Video | 参照画像から一貫した動画を生成 |
| Video Edit | 既存動画の編集・スタイル変換 |
Thinking Mode: 最大の新機能
Thinking Modeは、Wan 2.7の中核となる機能です。生成前にChain-of-Thought(CoT)推論を実行し、プロンプトを深く理解してから生成します。
処理フロー
- プロンプト解析: テキストセマンティクスと視覚セマンティクスを共有潜在空間にマッピング
- 構図計画: 被写体の配置・カメラアングル・ライティングを計画
- 推論検証: 計画の整合性を内部チェック
- 生成実行: 検証済みの計画に基づいて画像・動画を生成
効果
- プロンプト忠実度の向上: 複雑なプロンプトでも意図を正確に反映
- アーティファクト削減: 歪み・ノイズ・不自然な物体の出現を抑制
- 構図一貫性の改善: 複数オブジェクト間の空間関係が自然になる
3つの新機能
1. 千面リアリズム(Thousand-Face Realism)
AI生成画像でよく問題になる「同一顔問題」(すべての人物が似た顔になる現象)を解消する機能です。
顔の骨格構造・目の詳細・固有の特徴を個別に制御できるため、多様な人物を含むシーンでも各人の顔が自然に差別化されます。
2. 精密カラー制御
色指定の精度が大幅に向上しました。
# カラー制御の例(プロンプトに色指定を含める)
prompt = """
A modern office with exact color specifications:
- Walls: #F5F5F0 (warm white)
- Furniture: #2C3E50 (dark navy)
- Accent: #3498DB (bright blue)
Color ratio: 60% white, 30% navy, 10% blue
"""
対応する指定方法:
-
HEXコード:
#3B82F6のような直接指定 - カラーパレット: 複数色の組み合わせと比率
- 参照画像からの色抽出: 既存画像の配色を自動抽出して適用
3. 高精度テキストレンダリング
生成画像内のテキスト描画が大幅に改善されました。
| 機能 | 仕様 |
|---|---|
| 最大トークン数 | 3,000以上 |
| 対応言語 | 12言語 |
| 対応コンテンツ | 通常テキスト・数式・表・学術コンテンツ |
広告バナー・資料・教材など、テキストを含む画像生成での活用が期待されます。
Wan 2.6との比較
Wan 2.7の直前バージョンはWan 2.6です。主な改善点を整理します。
| 項目 | Wan 2.6 | Wan 2.7 |
|---|---|---|
| Thinking Mode | なし | あり(CoT推論) |
| 動画最大長 | 約10秒 | 15秒 |
| 最大解像度(画像) | 2K相当 | 4K(4096×4096、Image Proのみ) |
| 顔制御 | 基本的 | 骨格・目・特徴レベル |
| カラー制御 | 基本的 | HEX/パレット指定 |
| テキストレンダリング | 限定的 | 3,000トークン・12言語 |
| 参照画像数 | 最大3枚 | 最大9枚 |
| ネイティブ音声 | なし | あり |
| 参照動画数 | 1本 | 最大5本 |
Together AI でのAPI実装
Together AIはWan 2.7の主要APIプロバイダーです1。
インストール
pip install together
環境変数の設定
export TOGETHER_API_KEY="your-api-key"
Text-to-Video 基本実装
import together
import urllib.request
import time
import os
client = together.Together()
def generate_video_wan27(prompt: str, duration: int = 5) -> bytes:
"""
Wan 2.7でテキストから動画を生成する(非同期ジョブ方式)
Args:
prompt: 動画の内容を説明するテキスト
duration: 動画の長さ(秒、2〜15秒)
Returns:
動画データ(バイト列)
"""
# ジョブを作成(非同期)
job = client.videos.create(
model="Wan-AI/wan2.7-t2v",
prompt=prompt,
resolution="720P",
ratio="16:9",
seconds=str(duration),
)
# ジョブ完了までポーリング
while True:
result = client.videos.retrieve(job.id)
if result.status == "completed":
video_url = result.output.url
break
elif result.status == "failed":
raise RuntimeError(f"動画生成に失敗しました: {result}")
time.sleep(5)
# 動画URLからダウンロード
with urllib.request.urlopen(video_url) as res:
video_data = res.read()
return video_data
# 使用例
prompt = """
A cherry blossom tree in full bloom, petals gently falling.
Thinking mode: plan a composition with foreground, midground, and sky.
Soft morning light, cinematic quality.
"""
video_bytes = generate_video_wan27(prompt, duration=5)
# ファイルに保存
with open("output.mp4", "wb") as f:
f.write(video_bytes)
print(f"動画を生成しました: {len(video_bytes) / 1024:.1f} KB")
Thinking Mode を明示的に活用するプロンプト設計
Thinking Modeは自動で動作しますが、プロンプトに構図の指示を含めることでより効果的になります。
# Thinking Modeを意識したプロンプト設計
def create_thinking_prompt(
subject: str,
style: str,
color_palette: list[str],
composition_notes: str
) -> str:
"""
Wan 2.7のThinking Modeを活かすプロンプトを構築する
"""
colors_str = ", ".join(color_palette)
return f"""
{subject}
Style: {style}
Color palette: {colors_str}
Composition: {composition_notes}
Generate with careful planning of:
- Subject placement and scale
- Lighting direction and intensity
- Background depth and detail level
- Color distribution matching the specified palette
"""
# 例: 商品写真生成
prompt = create_thinking_prompt(
subject="A luxury wristwatch on a dark wooden surface",
style="Product photography, studio lighting, high detail",
color_palette=["#1A1A1A (background)", "#C0A060 (gold)", "#FFFFFF (highlight)"],
composition_notes="Rule of thirds, watch centered slightly left, reflection visible"
)
video_bytes = generate_video_wan27(prompt, duration=3)
料金の目安
Together AIでのWan 2.7の料金2:
| プロバイダー | 解像度 | 5秒あたりの料金 |
|---|---|---|
| Together AI | 720p-1080p | $0.50($0.10/秒) |
| WaveSpeed AI | 720p | $0.50($0.10/秒) |
| WaveSpeed AI | 1080p | $0.75($0.15/秒) |
活用シーン
1. 商品・ECサイト向け画像生成
HEXカラー制御でブランドカラーに忠実な商品画像を自動生成できます。
2. マーケティング動画
15秒の動画生成に対応しており、SNS向けショート動画や広告素材として活用できます。
3. 教育・資料作成
3,000トークン対応の高精度テキストレンダリングで、図解や説明付き画像の生成が可能です。
4. 多人数シーンの描写
千面リアリズムにより、チーム写真・イベントシーンなど複数の人物が登場するコンテンツで自然な仕上がりが得られます。
注意点
APIのアクセス制限: 現時点(2026年4月)では、Together AIでText-to-Videoエンドポイント(
Wan-AI/wan2.7-t2v)が公開されています。Image-to-VideoやReference-to-Videoは他プロバイダー(WaveSpeed AI等)で利用可能ですが、APIアクセス方法は各プロバイダーのドキュメントを参照してください。
Thinking Modeの処理時間: CoT推論を内部で実行するため、従来モデルより生成時間が長くなる場合があります。バッチ処理時はタイムアウト設定を余裕を持って設定することを推奨します。
まとめ
- Thinking Mode(CoT推論)によりプロンプト忠実度・構図一貫性が大幅向上
- 画像Pro 4K・動画15秒対応で、プロダクション品質のコンテンツ生成が可能
- Together AI経由で
$0.10/秒から利用でき、Python SDKで簡単に実装できる - 精密カラー制御・千面リアリズム・高精度テキストレンダリングの3機能が実用的なユースケースを拡大
次のステップとして、WaveSpeed AIでのImage-to-VideoやReference-to-Videoも公式ドキュメントをもとに試してみる価値があります。
参考リンク
- Together AI - Wan 2.7 Now Available — APIアクセス方法とエンドポイント
- WaveSpeed AI - Wan 2.7 — 各モデルの仕様・料金
- ABNewsWire - Wan 2.7 発表 — 公式発表内容
- WaveSpeed AI Blog - Wan 2.7 vs 2.6 — バージョン比較
-
Together AI - Wan 2.7 Now Available(2026年4月) ↩
-
WaveSpeed AI - Wan 2.7(2026年4月時点の料金) ↩