この記事では、Media AI プラットフォームの技術力と応用の実践について、Apsara Conference 2020でのHu Yao氏のプレゼンテーションをハイライトしています。
アプサラカンファレンス2020の再放送はこちらのリンクからどうぞ !
By AliENT
Apsara Conference 2020のIntelligent Entertainment Industry Practice Sub-Forumでは、アリババのデジタルエンターテインメントグループのシニアアルゴリズム専門家である胡耀氏がプレゼンテーションを行いました。動画のコンテンツ制作のジレンマに基づいて、Media AIプラットフォームの技術力と応用実践を共有しました。自動化された大規模でリアルタイムな動画制作機能を備え、ビジネスサイドの効率化とコンシューマーデバイス上でのコンテンツ制作を支援します。そうすることで、Media AIプラットフォームはエンターテインメント業界の構造的なアップグレードを実現することができるといいます。
以下の内容は、講演を要約したものです。
人々の生活ペースは年々加速しています。それに伴い、顧客の細分化された消費の時間が増えています。モバイル端末の普及とネットワーク帯域の加速により、ショートビデオ業界が誕生しました。最新のデータによると、毎日7億7300万本以上のショートビデオが消費されており、市場規模は2000億元を超えています。
ショートビデオ業界は繁栄していますが、大量の低品質の動画にはまだ問題があります。毎日何百万本もの動画が作成され、様々なプラットフォームで公開されています。しかし、これらの動画には二極化の特徴があります。それは、プロのクリエイターが作成した高品質なプロ生成コンテンツ(PGC)が不足していることを意味しており、これらの動画はプロによる洗練と膨大な準備を必要とします。その結果、短い動画の多くは、質の低い繰り返しコンテンツが多くなります。
制作とツールの2つの側面から、全体的に良い動画コンテンツを制作するのは難しいです。そこでアリババのエンターテインメントグループは今年、動画制作者にコンテンツプラットフォーム上での支援を提供するために「Media AIプラットフォーム」を立ち上げました。
Media AIプラットフォームは、AI技術による動的素材の抽出、動画テンプレートの制作、インテリジェントな編集技術、インテリジェントな素材処理、インタラクティブな効果を実現しています。
これらの機能が従来の映像編集と異なるのは、映像制作を目的としたものであることです。例えば、従来のAI処理方法では、サブシーンやサブレンズの全体的なセグメンテーションやトラッキングを考慮した技術や製品はほとんどありません。また、同じ映像を元に美学を持って異なる映像を制作する方法を検討している製品は非常に少ないです。しかし、エンターテインメント業界のビジネス特性を理解することで、アリババのエンターテインメントグループでは、映像制作や編集に力を入れています。映像の構成やダイナミックな素材の抽出、パッと見のショートビデオの制作、テンプレート型のショートビデオの制作や特殊効果などに注目が集まっています。これらにより、インテリジェントビジネスデバイスの業務効率化、良質なコンテンツの編集、大量の予告編の自動制作が可能となります。また、動的素材の制作・抽出を支援し、動的素材の大規模なライブラリを構築することもできます。さらに、アリババのエンターテイメントグループは、配信プラットフォーム向けに自動化されたカスタマイズされたキャプチャを実装することができます。動画のテンプレートを抽出することで、ネットワーク全体を通して高品質なショートビデオを見つけ出し、似たスタイルのショートビデオを制作することができます。Alibaba's Entertainment Groupには多くのIPコンテンツがあり、そこから大量の二次消費コンテンツや新規コンテンツを派生させ、さらに、二次編集機能については、動画編集機能を利用することで、より良いショート動画を低コストで制作することができます。
動的マテリアルの抽出
Media AIプラットフォームは、動画構造に基づいて、動画の多階調情報を深く分析し、概念レベルでの意味事象の理解能力を開発することができます。従来の動画や画像の構造は、人や物などのより具体的な情報を対象としていることが多いです。例えば、少女や集合写真などの静的なキーワードは、従来の画像構造に基づいて抽出することができますが、これは動画作成の材料要件を満たしていません。動画制作や配信においては、ハグ、キス、面白い、甘い、戦争など、よりコンセプチュアルなキーワードがクリエイターに求められています。このようなダイナミックな素材を用いた動画構造は、現在の5Gトレンドの下でのコンテンツ提示とより合致しています。そのため、アリババのエンターテインメントグループは、創造的な素材の自動抽出を実現しました。フレームレベル、レンズレベル、概念レベルで強度の異なる意味的な素材を自動的に抽出することができ、同時に、素材は、品質の高いハイライトを自動生成するために使用することもできます。例えば、クリエイターがアイドルの短いビデオクリップを見つけたい場合、プラットフォームは、クリエイターが次の制作を行うための一連の素材を素早く生成することができます。
インテリジェントマテリアル処理
アリババのエンターテインメントグループは、メディアAIプラットフォームの知能化技術をベースに、エンターテインメント業界向けに膨大なHDダイナミック素材のライブラリを構築しています。例えば、ストリートダンスのIPを利用することで、各ダンサーの姿勢やアクション、クロスシーンの素材を抽出することができます。自動・無人の演出や「髪の毛レベル」の高精細なディテールを理解しています。これらの技術をPGCのコンテンツ制作に全面的に適用することができ、ストリーマーに生放送のインタラクションにおけるよりインタラクティブなツールを提供することができます。また、これらの技術は、顧客に強力な編集ツールを提供することができます。
超高精細ダイナミック材料のインテリジェントな生産図↑
コンテンツ構造をベースに、アリババのエンターテインメントグループはAIと美学を組み合わせました。例えば、デザインに必要な素材は1セットです。AIと美学をベースに、縦と横の素材の大きさを変えて、プレイヤーと組み合わせることでシームレスな切り替えが可能になります。そうすることで、ユーザー体験の向上、運用コストの削減、製品のイテレーションを加速させることができます。この技術は今すぐにでもご利用いただけます。
インテリジェント編集技術
ユーザーの断片化された消費需要は、より詳細で指数関数的に集中したストーリーの要約によってより満たすことができます。長い動画を見ている間、ユーザーは長い動画から派生したIPコンテンツを見続けます。そして人によってIPコンテンツの好みは異なります。例えば、女性視聴者の中には、「甘い」「面白い」ストーリーを好む人もいれば、「シリアス」「悲しい」ストーリーを好む人もいます。そのため、この技術は、異なるユーザーに異なるクイックルック・クリップを見せることができます。このようにして、ユーザーは、限られた断片化された時間で、より深いコンテンツを見ることができます。
アリババのエンターテイメントグループは、15秒から5分までの異なる持続時間を持つクイックルッククリップ編集機能を持っています。さらに、ユーザーの特性に基づいて、異なるタイプのカスタマイズされたクリップを自動的に実現することができます。クロスシーンとクロスレンズのインテリジェントな自動セグメンテーション機能により、イベントの完全な抽出を実現することができます。さらに、コンテンツ構造分析機能により、ストーリーとユーザーの感情を自動的に完璧に組み合わせ、ユーザーの多様な視聴要求を満たすことができます。同時に、異なる長さの短い動画を自動的に生成する機能により、制作コストが非常に低く、ユーザーの細分化したIP消費を満たすための新たな広告機会をもたらします。「Good Bye, My Princess」を例に挙げてみましょう。制作チームは、1つのエピソードの中で、ユーザーのさまざまな視聴体験ニーズを満たすために、さまざまなタイプのストーリーサマリーを多数作成することができ、より良い動画消費を実現することができます。
テンプレート動画制作
短い動画を見る場合、ユーザーは映画やテレビ番組のコメンタリーを見る傾向があります。人々は、個人的なスタイルのアイデアをコメンタリーに取り入れますが、制作コストは比較的高くなります。そこで、アリババのエンターテインメントグループは革新的な新機能を開発しました。プロデューサーがシーンやテキストの説明を入力すると、Media AIプラットフォームが動画、テキスト、音声に基づいてクリップを自動生成するというものです。大量の高品質なIPコンテンツと組み合わせることで、大規模なコンテンツの自動生成をスケールアップし、リアルタイムで完成させることができます。その結果、自動生成されたコンテンツは、一般的なプロデューサーが作成したコンテンツと品質の差がありません。また、プロデューサーがアイドルのために作成したものでも、ファンが編集したものでも、プロデューサーが任意にテキストを入力すると、プラットフォームは元の動画内のテキストを自動的に処理します。その後、プラットフォームは字幕をダビングしてプロデューサーの視聴体験をより精緻にし、従来の箇条書きのコメントよりも立体的で直感的なものにしています。
インターネット上には、ユーザーがアップロードした面白い動画が大量にあり、そのどれもがモデルやテンプレートを持っています。アリババは、その深い蓄積されたAI技術を頼りに、エンターテインメントや創作のためのテンプレートをインテリジェントに抽出しています。メディアAIプラットフォームは、インテリジェントなセマンティック分析を通じて、動画に基づいて撮影テンプレートを抽出します。そして、似たようなスタイルのコンテンツをさらに制作し、ユーザーに提示することで、ユーザーは短時間で様々なスタイルのリッチなコンテンツを持つ複数の動画を見ることができるようになります。また、動画をシーンやフレームレベルで撮影要素に分解することも可能です。さらに、これらの要素を元にテンプレートベースの撮影スクリプトを作成し、似たようなスタイルの動画を制作することができます。
これまでの技術蓄積をもとに、アリババエンターテインメントグループでは、プロット素材、シーン素材、キャラクター素材、汎用素材など、アルゴリズム素材が豊富なライブラリを実装しています。テンプレート編集を実現し、顧客に人気のある撮影テンプレートを抽出することができます。例えば、長尺と短尺を織り交ぜて撮影するテクニックは、すべてテンプレートから抽出することができます。この技術は、制作コストが高く、制作サイクルが長いという欠点を克服し、大幅な省人化を実現し、パイプライン生産のためのバッチでの複製が可能です。アリババのエンターテインメントグループは、技術や製品を蓄積することで、AIを活用した制作やデザインなどの素材生産能力を提供することができます。一方、アリババのエンターテイメントグループは、ビジネスサイドのオペレーションの効率化を支援し、エンターテイメント業界の構造的なアップグレードを実現するのに貢献してきました。
今後の展望
今後、アリババのエンターテインメントグループは、技術面ではより効率的に配信を推進し、業界にとってより良い製品やツールを生み出していきたいと考えています。また、顧客側では、アリババのエンターテインメントグループは、より多くの消費パターンと動画のインタラクションにより、ユーザーに新しい体験を提供していきたいと考えています。業界側では、アリババのエンターテインメントグループは、より多くのビジネスサイドのPGCやマルチチャンネルネットワーク(MCN)と協力して、蓄積された経験とツールで創造を支援したいと考えています。同時に、アリババのエンターテインメントグループは、PGCとMCNから制作経験を得て、Win-Winの状況を作り出したいと考えています。
本ブログは英語版からの翻訳です。オリジナルはこちらからご確認いただけます。一部機械翻訳を使用しております。翻訳の間違いがありましたら、ご指摘いただけると幸いです。
アリババクラウドは日本に2つのデータセンターを有し、世界で60を超えるアベラビリティーゾーンを有するアジア太平洋地域No.1(2019ガートナー)のクラウドインフラ事業者です。
アリババクラウドの詳細は、こちらからご覧ください。
アリババクラウドジャパン公式ページ