本記事はこちらのブログを参考にしています。
翻訳にはアリババクラウドのModelStudio(Qwen)を使用しております。
アリババ、最新のオープンソース動画生成・編集モデル「Wan 2.1-VACE」を発表
中国・杭州、2025年5月15日 — アリババは、最新のオープンソース動画生成および編集モデル「Wan 2.1-VACE (Video All-in-one Creation and Editing)」を公開しました。この革新的なツールは、複数の動画処理機能を1つのモデルに統合し、動画制作プロセスを合理化することで効率と生産性を向上させます。
https://video-intl.alicdn.com/2025/PR/VACE%20Release.mp4
アリババの動画生成大規模モデル「Wan2.1シリーズ」の一環として、VACEは業界初のオープンソースモデルであり、さまざまな動画生成および編集タスクに統一的なソリューションを提供します。Wan2.1-VACEは、テキスト、画像、動画など多様なモーダル入力をサポートする動画生成を行いながら、クリエイターに包括的な動画編集機能を提供します。これらの編集機能には、画像やフレームの参照、動画の再描画、動画内の選択範囲の変更、時空間拡張が含まれており、これらすべてによりさまざまなタスクを柔軟に組み合わせて創造性を高めることができます。
この高度なツールを使用することで、ユーザーは画像サンプルに基づいて特定の相互作用を持つ主体を含む動画を生成したり、静止画像に自然な動き効果を追加して命を吹き込んだりすることができます。また、ポーズ転送、モーション制御、深度制御、再着色などの高度な動画再描画機能も楽しめます。さらに、周囲に影響を与えることなく、動画の特定部分に追加、修正、または削除を行うことも可能です。動画の境界を拡張しながら、コンテンツをインテリジェントに補完して視覚体験を豊かにすることもサポートしています。
オールインワン型のAIモデルであるWan2.1-VACEは、比類のない汎用性を提供し、ユーザーが複数の機能をシームレスに組み合わせ、革新的な可能性を引き出せるようにします。ユーザーは静止画像を動画に変換しつつ、指定された運動軌跡に基づいて物体の動きを制御できます。また、指定された参照を使ってキャラクターや物体をシームレスに置き換えたり、参照キャラクターをアニメ化したり、ポーズを制御したり、縦型の画像を水平方向に拡張して新しい要素を追加しながら横長の動画を作成することも可能です。
革新的な技術
Wan2.1-VACEは、さまざまな動画編集タスクのニーズを考慮して設計および構築されています。その統一インターフェース「Video Condition Unit (VCU)」は、テキスト、画像、動画、マスクなどの多様なモーダル入力に対応した統一処理をサポートします。このモデルは、Context Adapter構造を採用しており、時間的および空間的次元の形式化された表現を用いてさまざまなタスクコンセプトを注入します。この革新的な設計により、幅広い動画合成タスクを柔軟に管理することが可能になります。
モデルアーキテクチャの進歩により、Wan2.1-VACEはソーシャルメディア向け短尺動画の迅速な制作、広告やマーケティング向けのコンテンツ作成、映像制作におけるポストプロダクションや特殊効果処理、教育用トレーニング動画の生成など、幅広い分野で活用できます。動画基盤モデルのトレーニングには膨大な計算リソースと高品質な学習データが必要です。オープンアクセスにより、より多くの企業がAIを活用するための障壁が低くなり、自社のニーズに応じた高品質なビジュアルコンテンツを迅速かつコスト効率よく作成できるようになります。
アリババは、Wan2.1-VACEモデルを140億(B)パラメータ版と13億(B)パラメータ版の2種類でオープンソース化しています。これらのモデルは、Hugging Face、GitHub、およびアリババクラウドのオープンソースコミュニティであるModelScopeから無料でダウンロードできます。
主要なグローバルテック企業の中でも初期に自社開発の大規模AIモデルをオープンソース化した企業の一つであるアリババは、2025年2月に4つのWan2.1モデルをオープンソース化し、先月には開始フレームと終了フレームを指定して動画生成をサポートするモデルを公開しました。これまでに、これらのモデルはHugging FaceとModelScopeで330万回以上のダウンロードを記録しています。