本記事はこちらのブログを参考にしています。
翻訳にはアリババクラウドのModelStudio(Qwen)を使用しております。
Ferdin Joe 撰写
Alibaba Cloud の Tongyi エコシステムには、さまざまな SaaS 製品があります。以下は Tongyi の異なる SaaS 製品の一部です:
- Tongyi Qianwen - Qwen LLM は、テキストのヒントに基づいてテキスト結果を生成し、Qwen VL モデルは画像ヒントに基づいて応答します。
- Tongyi Wanxiang - テキストのヒントに基づいて画像を作成し、ベース画像の前景と背景を参照画像とヒントを使って編集し、またヒントに基づいて動画を作成します。
- Tongyi Lingma - VS Code や Jet Beans などの IDE 用のコード共作プラグインです。
- Tongyi Tingwu - 録音された音声やリアルタイム音声をテキストに変換し、翻訳します。
このブログでは、AI生成コンテンツ向けのマルチモーダル SaaS、Tongyi Wanxiang の機能について詳しく取り上げます。Alibaba Cloud には Model Studio があり、Model as a Service (MaaS) 機能を提供しています。これは Qwen VL の視覚言語モデルです。今回のシナリオでは、このモデルを使用します。
Azeez はドバイに住む建築家であり、新たなスカイスクラッパープロジェクトに携わっています。彼はインターネット上でプロジェクトの参考画像を見つけましたが、著作権問題や要求に完全に一致しないため使用できません。そこで、彼はインターネットからダウンロードしたような類似の画像を作成したいと考えています。彼は技術的な提案を出す経験が少ないものの、Alibaba Cloud の Model Studio の使い方は理解しています。彼がこの画像を AI 生成の著作権フリーかつプロジェクトに合った画像に変換する過程を以下に説明します。
- Model Studio のダッシュボードを開きます。
- 「今すぐ使用」をクリックします。
- 「Playground」を選択します。
- 利用可能なモデルをブラウズし、Qwen-VL-Plus または Qwen-VL-Max を選択します。
- 画像アイコンをクリックして、ダウンロードした画像を選択します。
- 「この画像と同じように画像を生成するためのプロンプトを作成」のようなヒントを入力し、右下のボタンをクリックして進みます。
- ヒントをコピーし、Tongyi Wanxiang の SaaS ポータルを開きます。
- Qwen VL Max からコピーしたヒントを入力し、「絵を生成する」をクリックします。
- Azeez は想像に近い 2 番目の生成画像を選んで、それをクリックします。
- 画像をダウンロードします。次に、動きのあるビデオシーンが必要になります。ビデオ作成ページを開きます。このビデオ作成機能は最近開催された Apsara Conference 2024 で発表されました。
- 「Figure Video」を選択します。
- フレーム領域をクリックし、画像を選んで「完了」をクリックします。
- 想像に沿った画像を生成するためのヒントを入力し、「ビデオ生成」をクリックします。
- ビデオ生成には少し時間がかかります。
- iOS と Android 用の Tongyi アプリも利用可能です。
- ビデオをダウンロードすると、以下のように再生されます。
1. ロボットスーツを着た人物がバドミントンをプレイ
この動画では、ロボットスーツを着た人物がバドミントンをプレイする様子を紹介しています。未来的な印象を与えるユニークな演出が特徴です。
2. 伝統的な青い服を着たインドの女性が赤いシルクの絨毯を織るシーン(9:16比率)
この動画では、伝統的な青い服を着たインドの女性が赤いシルクの絨毯を織っている様子が映し出されています。9:16の縦型の比率で、スマートフォンに最適な形式です。
3. 伝統的な青い服を着たインドの女性が赤いシルクの絨毯を織るシーン
この動画も、伝統的な青い服を着たインドの女性が赤いシルクの絨毯を織っている様子を映し出しています。異なる視点や演出が加えられたバージョンです。
4. 16:9バージョンの動画
こちらは16:9の標準的な横長の比率で、テレビやパソコンの画面に最適なフォーマットの動画です。
これらの動画は、独自のビジュアルストーリーを通じて、さまざまな場面やアイデアのインスピレーションを提供します。興味がある動画があれば、ぜひご覧ください。