Alibaba Cloud の Qwen2.5 Omni：生成 AI で複数のモダリティを処理

Posted at 2025-04-21

本記事の作成者：Farruh

生成 AI (GenAI) の時代では、大規模言語モデル (LLM) はもはやテキストに限定されません。 Qwen2.5 Omni のようなマルチモーダルモデルは、テキスト、画像、オーディオ、およびビデオの間のギャップを埋め、AI が人間のように考え、見、聞き、話すことを可能にします。

マルチモダリティが重要な理由

マルチモーダルデータの普及：インターネットトラフィックの 90% は、映像やオーディオコンテンツ (TikTok ビデオ、ポッドキャストなど) です。
人間のようなインタラクション：ユーザーは、AI で複数の入力 (たとえば、写真_と_音声クエリ) を処理できることを期待しています。
業界に革新をもたらす：健康診断から E コマースまで、マルチモーダル AI は新しい標準です。

Qwen2.5 Omni：包括的なマルチモダリティ向けに設計

テキスト処理からの飛躍：Qwen2.5-VL のような LLM はテキストと画像の処理に優れていますが、Qwen2.5 Omni は、全感覚的 AI への飛躍として、オーディオ / ビデオストリーミングを追加します。
統一されたアーキテクチャ：サイロ化されたツールとは異なり、Qwen2.5 Omni は単一モデルでさまざまなモダリティの入出力に対応します。

Qwen2.5 Omni を理解する：技術的優位性

Thinker (テキスト / オーディオ / ビデオ処理) と Talker (音声生成) モジュールの概要

テクニカルレポートからの主なイノベーション

Thinker - Talker アーキテクチャを採用した Qwen2.5-Omni の概要

1. TMRoPE 位置符号化：

Time-aligned Multimodal RoPE により、オーディオフレームとビデオフレームの同期処理 (ビデオでのリップシンクなど) が保証されます。
Interleaved Chunking により、ビデオは 2 秒のブロックに分割され、ビジュアル / オーディオデータの組み合わせにより遅延が短縮されます。

2. Thinker-Talker アーキテクチャ：

Thinker：テキスト生成と推論のための LLM です。
Talker：リアルタイム音声生成のためのデュアルトラックモデルで、Qwen2-Audio と比較してオーディオの遅延が 40% 短縮されます。

3. ストリーミング効率：

ブロック単位のエンコーディングでは、オーディオ / ビデオがチャンク単位で処理され、リアルタイムの推論が可能になります。
スライディングウィンドウ拡散トランスフォーマー (DiT) では、受容野を制限することによって初期オーディオ遅延が低減されます。

Qwen2.5 Omni と他のマルチモーダルモデルの比較

タスク	Qwen2.5-Omni	Qwen2.5-VL	GPT-4o-Mini	SOTA
画像 → テキスト	59.2 (MMMUval)	58.6	60.0	53.9 (その他)
ビデオ → テキスト	72.4 (Video-MME)	65.1	64.8	63.9 (その他)
マルチモーダル推論	81.8 (MMBench)	非該当	76.0	80.5 (その他)
スピーチ生成	1.42% WER (中国語)	非該当	非該当	2.33% (英語)

Qwen2.5 Omni が優れている理由

統合モデル：Qwen2-Audio や Qwen2.5-VL などのようにオーディオモデルとビデオモデルを切り替える必要はありません。
低遅延：Qwen2.5 Omni では 2 秒間のビデオチャンクがリアルタイムで処理されます。リアルタイムコンテンツを持つアプリケーションやサービスに最適です。
汎用性：Qwen2.5 Omni では、テキストだけでなく、エンドツーエンドの音声命令 (たとえば、「このビデオを要約して、声に出して読んでください」) を処理できます。

Alibaba Cloud での Qwen2.5 Omni のクイックスタート

ステップ 1：モデルを選択する

1. Alibaba Cloud ModelStudio または Model Studio 紹介ページに移動します。

2. “Qwen2.5-Omni” を検索してページに移動します。

3. モデルへのアクセスを許可します (基本機能の使用は無料) 。

ステップ 2：環境を準備する

セキュリティ優先のセットアップ：

1. 仮想環境を作成する (推奨)：

python -m venv qwen-env
source qwen-env/bin/activate  # Linux/MacOS | Windows: qwen-env\Scripts\activate

2. 依存関係をインストールする

pip install openai

3. API キーを安全に保存する：
.env ファイルをプロジェクトディレクトリに作成します：

DASHSCOPE_API_KEY=your_api_key_here

ステップ 3：OpenAI との互換性を備えた API 呼び出しの作成

OpenAI ライブラリを使用して Qwen2.5-Omni と対話します：

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

# Example: Text + Audio Output
completion = client.chat.completions.create(
    model="qwen2.5-omni-7b",
    messages=[{"role": "user", "content": "Who are you?"}],
    modalities=["text", "audio"],  # Specify output formats (text/audio)
    audio={"voice": "Chelsie", "format": "wav"},
    stream=True,  # Enable real-time streaming
    stream_options={"include_usage": True},
)

# Process streaming responses
for chunk in completion:
    if chunk.choices:
        print("Partial response:", chunk.choices[0].delta)
    else:
        print("Usage stats:", chunk.usage)

API の主な機能

機能	詳細
入力タイプ	テキスト、画像、オーディオ、ビデオ (URL / Base64 経由)
出力モダリティ	`modalities` パラメーターの指定 (例：デュアル出力の場合は `["text", "audio"]`)
ストリーミングのサポート	`stream=True` によるリアルタイムの結果
セキュリティ	API キーの環境変数 (`.env` ファイル)

高度なユースケース：限界への挑戦

1. リアルタイムビデオ分析

ユースケース：感情検出ありのライブイベントキャプション生成。

入力：10 秒のビデオクリップ。
出力：テキスト要約 + 音声解説 (「歓声が上がっています！」など)。

2. クロスモーダル E コマース

ユースケース：画像とユーザーレビューから製品の説明を生成する。

# Input: Product image + "Write a 5-star review in Spanish"
# Output: Text review + audio version in Spanish.

Qwen2.5 Omni を学ぶ理由

将来に対応可能なスキル：マルチモーダルモデルは、AI アプリケーションの次世代標準です。
競争力： Qwen2.5 Omni を使用することにより、

コスト削減が可能：すべてのテキスト / オーディオ / ビデオタスクに対してモデルは 1 つです。
イノベーションの加速が可能：リアルタイムアプリ (仮想アシスタント、スマート監視など) をデプロイできます。

トラブルシューティングとベストプラクティス

1. ファイルサイズの制限：

**画像：**1 ファイルあたり 10 MB 以下です。
**合計トークン数：**モデルの 32k トークン制限 (テキスト + 画像 / オーディオの埋め込み) が尊重されます。

2. ストリーミングのための最適化：

大きなサイズのファイルに対しては、Alibaba Cloud の OSS を使用します。
リアルタイム出力の場合、stream=True を有効化します。

結論：未来はマルチモーダルです

生成 AI が進化するにつれて、マルチモーダル機能がヘルスケアからエンターテインメントまでの業界を支配するようになります。 Qwen2.5 Omni をマスターすることで、人間と AI によるコラボレーションの次の時代に進むことができます。

今すぐ実験を始めて、革命に参加しましょう!