アリババクラウド、Wanx 2.1を発表：AI駆動のビデオ生成を再定義

Last updated at 2025-01-14Posted at 2025-01-14

本記事はこちらのブログを参考にしています。
翻訳にはアリババクラウドのModelStudio(Qwen)を使用しております。

Alibaba CloudがWanx 2.1を発表、AI駆動のビデオ生成を再定義

Alibaba Cloudは、2023年7月に初めてデビューしたマルチモーダル大規模モデルTongyi Wanxiang (Wanx)の最新版であるWanx 2.1を導入しました。テキスト入力から高品質な画像とビデオを生成するように設計されたWanx 2.1は、AI駆動の視覚コンテンツ生成において大きな進歩を遂げています。新しいモデルは、複雑な動きを正確に処理し、ピクセルの品質を向上させ、物理的な法則に従い、指示の精度を最適化することで、現実的な視覚効果を生成することに優れています。指示の精度が高いため、Wanx 2.1は、ビデオ生成モデルの包括的なベンチマークスイートであるVBenchリーダーボードでトップに立っています。VBenchによると、全体得点84.7%で、Wanx 2.1はダイナミック度、空間関係、多物体間の相互作用などの主要な次元でリードしています。

視覚生成の品質を最大化するために、Wanx 2.1の研究チームはいくつかの分野で重要な技術的な進歩を遂げました。まず、独自のVAE（Variational Autoencoder）とDiT（Denoising Diffusion Transformer）フレームワークを活用することで、Wanx 2.1は時間的および空間的な関係を強化し、複雑な動きや物理的な法則を伴うシーンにおいてより高い視覚的リアリズムを達成します。全空間-時間注意メカニズムを採用することで、モデルは現実世界の複雑なダイナミクスを驚くほど正確に模倣することができます。また、超長文コンテキストを使用してモデルのトレーニングプロセスを加速する革新的なアプローチも採用されており、これによりテキスト指示がビデオ生成にシームレスに統合され、より速く直感的なコンテンツ作成が可能になります。さらに、Wanx 2.1は、広告デザインやショートビデオ制作などの業界の多様な創造的なニーズに対応するため、中国語と英語の両方のテキストエフェクトをサポートする最初のビデオ生成モデルとなりました。

テキストプロンプト:「平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服，脚踩白色的滑冰鞋，正在进行一个旋转动作。她的手臂张开，身体向后倾斜，展现了她的技巧和优雅」。
日本語訳: 冰上のフィギュアスケーターの女性がパフォーマンスをするパノラマショット。彼女は紫のスケートウェアと白いスケート靴を履いていて、スピン動作を行っている。彼女の腕は広がっており、体は後ろに傾いている。これは彼女の技術と優雅さを示している。

このような革新的なアプローチにより、Wanx 2.1は大規模な身体の動きと複雑な回転を含むビデオを生成する能力を示しています。フィギュアスケート、水泳、ダイビングなどの挑戦的なシナリオでも、モデルは身体の協調性を維持し、現実的な動きの軌道に従います。これにより、ビデオ生成の新たな基準が設定されています。Wanx 2.1は現在、公式中国語サイトで無料で利用可能です。個人開発者や企業ユーザーは、Alibaba Cloudの生成AIプラットフォームModel Studioを通じて、その可能性を探求することができます。これにより、ユーザーは独自のニーズに合わせた高品質な視覚コンテンツを作成し、AI技術とクリエイティブ産業との間のギャップをさらに縮小することができます。

この記事は、AlizilaでCrystal Liuによって執筆されました。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up