Alibaba Wan 2.1をPAI ModelGalleryでデプロイしてみた

Posted at 2025-04-23

近年、AIによる動画生成技術は急速に発展し、テキストや画像から高品質な動画を生成できるようになりました。その中でも、Alibaba Cloudが開発・公開した「Wan 2.1」は、オープンソースで提供されている最先端の動画生成AIモデルです。

この記事では、AlibabaのWan 2.1動画生成AIモデルをAlibaba Cloud Platform for AI（通称PAI）のModelGalleryを利用して直接デプロイし、実際に動作させる手順をエンジニア向けに詳細に解説します。PAIのModelGallery機能を使うことで、GitHub等からのモデルの手動ダウンロードや複雑な設定をすることなく、簡単かつ効率的にモデルをデプロイできます。

1. Wan 2.1モデルの概要と特徴

Wan 2.1は、Alibaba Cloudによって開発された包括的なビデオ生成AIモデルスイートです。このモデルは2025年2月にオープンソース化され、テキストから動画（Text-to-Video、T2V）および画像から動画（Image-to-Video、I2V）の両方の機能を備えています。

wan.video

主な特徴

🚀 最先端のパフォーマンス: オープンソースおよび商用モデルを含む他の動画生成モデルと比較して優れた性能を示しています。
💻 一般的なGPUでの実行: 小規模なT2V-1.3Bモデルは8.19 GB VRAMのみを必要とし、ほぼすべての一般的なGPUで動作可能です。
🛠️複数のタスク対応: Text-to-Video、Image-to-Video、Video Editing、Text-to-Image、Video-to-Audioなどの機能を持っています。
📝テキスト生成能力: 中国語と英語の両方のテキストを動画内に生成できる最初のビデオモデルです。
🎥 強力なビデオVAE: 高効率・高性能なエンコーディングとデコーディングにより、任意の長さの720P動画を処理できます。

利用可能なモデルバリエーション

Wan 2.1には以下のモデルバリエーションが用意されています：

モデル	パラメータ数	対応解像度	特徴
T2V-14B	140億	480P/720P	高品質なテキストから動画生成
T2V-1.3B	13億	480P	軽量で一般的なGPUでも動作
I2V-14B-720P	140億	720P	高解像度の画像から動画生成
I2V-14B-480P	140億	480P	標準解像度の画像から動画生成

2. Wan 2.1モデルについて詳細解説

Wan 2.1は、メインストリームのディフュージョントランスフォーマーパラダイムに基づいて設計されています。モデルの核となる部分は以下の技術から構成されています：

Wan-AI/Wan2.1-I2V-14B-720P-Diffusers · Hugging Face

3D変分オートエンコーダー (Wan-VAE)

Wan 2.1は、ビデオ生成向けに特別に設計された新しい3D因果的VAEアーキテクチャを採用しています。これにより空間的・時間的圧縮の向上、メモリ使用量の削減、時間的因果関係の保証を実現しています。

このグラフでは、横軸がフレームあたりのレイテンシ（遅延）で測った「効率性」を、縦軸が「画質」を示すPSNRを表しています。PSNRは値が高いほど高画質です。

ビデオディフュージョンDiT

フローマッチングフレームワークを使用し、T5エンコーダで多言語テキスト入力をエンコードします。各トランスフォーマーブロックのクロスアテンションによりテキストをモデル構造に埋め込みます。

モデルのアーキテクチャ

モデル	次元	入力次元	出力次元	フィードフォワード次元	周波数次元	ヘッド数	レイヤー数
1.3B	1536	16	16	8960	256	12	30
14B	5120	16	16	13824	256	40	40

3. 前提条件

この記事の手順を実行するには、以下の前提条件が必要です：

Alibaba Cloudアカウントとリソース

Alibaba Cloudアカウント（未取得の場合は公式サイトから登録）
Platform for AI (PAI)の利用権限
十分なGPUリソース

必要な知識

Alibaba Cloudコンソールの基本的な操作
PAIの基本的な概念の理解
REST APIの基本知識

ソフトウェア要件

Webブラウザ
APIテスト用ツール（Postman、curlなど）

4. Alibaba Cloud PAIの準備と基本設定

PAIコンソールへのアクセス

Alibaba Cloudコンソールにログイン
上部のプロダクト一覧から「Platform for AI (PAI)」を選択
PAIのダッシュボードが表示されます
リージョン：Japan (Tokyo) を選択

5. PAI ModelGalleryからWan 2.1モデルを選択

Alibaba Cloud PAIのModelGalleryは、すぐに使える各種AIモデルが事前に構成されたカタログです。ここからWan 2.1モデルを直接選択してデプロイできます。

ModelGalleryへのアクセス

PAIコンソールの左側ナビゲーションから「ModelGallery」を選択
検索バーに「Wan 2.1」と入力して検索
モデルバリエーションの選択

デプロイページでは、以下のWan 2.1のバリエーションから選択できます：

Wan2.1-T2V-14B: テキストから動画生成（高品質、大規模）
Wan2.1-T2V-1.3B: テキストから動画生成（軽量）
Wan2.1-I2V-14B-720P: 画像から動画生成（高解像度）
Wan2.1-I2V-14B-480P: 画像から動画生成（標準解像度）
検索結果からWan 2.1モデルを見つけます。今回は「Wan2.1-I2V-14B-480P」を利用します。

モデルの選択と確認

Wan 2.1モデルをクリックして詳細ページを開く
「デプロイ」ボタンをクリックしてデプロイプロセスを開始

6. PAIでのWan 2.1モデルデプロイ手順

デプロイ設定の構成

「モデルデプロイ」ページで以下の情報を入力：
- Deployment Method: 「Single-GPU」を選択
- Basic Infomation:
  - Service Creation Method: Create Service を選択
  - Service Name: 適当な名前を入力

リソース設定：
- インスタンス数：1（必要に応じて増やせます）
- インスタンスタイプ：ecs.gn7e-c16g1.4xlarge以上
  - 利用できるGPUが限られる為、適切で利用可能なマシンを選択する

デプロイの実行

すべての設定を確認
「作成」ボタンをクリックしてデプロイを開始
デプロイステータスがダッシュボードに表示されます
デプロイ完了までしばらく待ちます（モデルサイズによって5〜20分程度）

デプロイ状態の確認

PAIコンソールの「Model Gallery > Deployment Jobs」セクションでデプロイ状態を確認
ステータスが「In operation」になればデプロイ完了

以下の情報が表示されます：
- サービスエンドポイントURL
- APIアクセス認証情報

- サービスの状態とメトリクス

7. デプロイ後のモデル動作確認

Web Appでの検証

Web AppボタンからUIを立ち上げ。

※ この際、Deployment Jobsの画面にあるView Web Appボタンからでは、URLのリンクが異なる為、 Elastic Algorithm Service (EAS) にある作成したマシンから遷移するとうまくいった。

Upload Input Image (画像のアップロード)
まず、動画の元となる画像をアップロードします。画面左上の「Upload Input Image」セクションにあるアップロードボタン（アイコン）をクリックするか、画像をドラッグ＆ドロップしてください。
Prompt (指示)
次に、「Prompt」セクションに、生成したい動画の内容をテキストで入力します。どのような動きや変化を加えたいかを具体的に記述しましょう。
(オプション) Advanced Options (詳細設定)
より細かく調整したい場合は、「Advanced Options」を開きます。「Diffusion steps」（拡散ステップ数）、「Guide scale」（ガイダンススケール）、「Seed」（シード値）、「Negative Prompt」（ネガティブプロンプト）などを設定できますが、基本的な利用ではそのままでも大丈夫です。
Generate Video (動画生成)
最後に、画面下部にある「Generate Video」ボタンをクリックします。これにより、アップロードした画像と入力したプロンプトに基づいて、AIが動画の生成を開始します。生成には少し時間がかかる場合があります。
生成された動画は、画面右側の「Generated Video」セクションに表示されます。

720Pでは大体30分かかりました。480Pも試したところ同様のタスクが10分程度で終わったので、何度も回したい場合は480Pを利用するのが良いかもしれません。

待っている間に、モニタリングやログにより動作していることが確認出来る。

実際の検証結果

ネジっぽい3Dプリンタで作成したものを、I2Vで回るようにした。

下記が出力結果の動作

8. まとめ

この記事では、Alibaba Cloud Platform for AI (PAI)のModelGalleryを利用して、Wan 2.1動画生成AIモデルを簡単にデプロイし、実際に利用する方法について解説しました。

学んだこと

Wan 2.1モデルの概要と特徴
Alibaba Cloud PAIのModelGalleryからのモデルデプロイ方法
テキストと画像から動画（I2V）の生成方法

Alibaba Cloud PAIのModelGalleryを使用することで、複雑なセットアップやインフラ管理を気にすることなく、最先端のAI動画生成モデルを簡単にデプロイして利用できました。

参考リソース

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up