1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Qwen2.5 Omni: マルチモーダルAIの強力な基盤

Last updated at Posted at 2025-04-19

本記事はこちらのブログを参考にしています。
翻訳にはアリババクラウドのModelStudio(Qwen)を使用しております。

Alibaba CloudのQwen2.5 Omni: GenAIがマルチモーダルと出会う時

1

生成AI(GenAI)の時代において、大規模言語モデル(LLMs)はもはやテキストに限定されなくなりました。Qwen2.5 Omniのようなマルチモーダルモデルは、テキスト、画像、音声、そして動画の間のギャップを埋めることで、AIが人間のように「考える」「見る」「聞く」「話す」ことを可能にします。

マルチモーダルが重要である理由

視覚/音声データの普遍性:

インターネットトラフィックの90%は視覚的・音声コンテンツです(例:TikTokの動画やポッドキャストなど)。

人間に近いインタラクション:

ユーザーはAIに対して複合的な入力(例:写真と音声クエリの組み合わせ)を処理することを期待しています。

産業への影響:

ヘルスケア診断から電子商取引まで、マルチモーダルAIが新しい標準となっています。

Qwen2.5 Omni: 総合的なマルチモーダルのために設計されたモデル

テキストを超えて:

Qwen2.5-VLなどのLLMがテキストや画像に優れている一方で、Qwen2.5 Omniはさらに音声/映像ストリーミングを追加し、フルセンサリーAIへの飛躍を実現しました。

統合アーキテクチャ:

分断されたツールとは異なり、Qwen2.5 Omniはモダリティ全体で入出力を一元化した単一モデルです。

Qwen2.5 Omniの理解: 技術的な優位性

2

Thinker(テキスト/音声/動画処理)とTalker(音声生成)モジュールの概要

技術レポートからの主な革新点

3

Thinker-Talkerアーキテクチャを持つQwen2.5-Omniの概要

1. TMRoPE位置エンコーディング:

時間同期型マルチモーダルRoPEにより、音声やビデオフレームが同期して処理されます(例:ビデオ内の唇の動きと音声の同期)。インターリーブチャンキングでは、ビデオを2秒ごとのブロックに分割し、視覚/音声データを組み合わせて遅延を削減します。

2. Thinker-Talkerアーキテクチャ:

  • Thinker: テキスト生成と推論を行うLLM。
  • Talker: リアルタイム音声生成のための二重トラックモデルで、音声の遅延をQwen2-Audioと比較して40%削減。

3. ストリーミング効率:

ブロック単位のエンコードにより音声/動画をチャンク処理し、リアルタイム推論を可能にします。スライディングウィンドウ拡散トランスフォーマー(DiT)は受容野を制限することで初期音声遅延を削減します。

Qwen2.5 Omniが他のマルチモーダルモデルに勝る理由

4

タスク Qwen2.5-Omni Qwen2.5-VL GPT-4o-Mini 最先端技術
画像→テキスト 59.2 (MMMUval) 58.6 60.0 53.9 (他社製品)
動画→テキスト 72.4 (Video-MME) 65.1 64.8 63.9 (他社製品)
マルチモーダル推論 81.8 (MMBench) N/A 76.0 80.5 (他社製品)
音声生成 1.42% WER (中国語) N/A N/A 2.33% (英語)

Qwen2.5 Omniが優れている理由

  • 統合モデル: Qwen2-AudioやQwen2.5-VLのような音声と動画のモデルを切り替える必要がありません。
  • 低遅延: Qwen2.5 Omniは2秒間のビデオチャンクをリアルタイムで処理するため、リアルタイムコンテンツを扱うアプリケーションやサービスに最適です。
  • 汎用性: Qwen2.5 Omniはエンドツーエンドの音声指示だけでなく、テキストにも対応します(例:「このビデオを要約して音声で読み上げてください」)。

Alibaba CloudでのQwen2.5 Omniのクイックスタート

ステップ1: モデルを選択

  1. Alibaba Cloud ModelStudio または Model Studio紹介ページ にアクセスします。
  2. 「Qwen2.5-Omni」を検索し、そのページに移動します。

5

  1. モデルへのアクセスを承認します(基本的な使用は無料)。

ステップ2: 環境の準備

セキュリティ第一のセットアップ:

  1. 仮想環境を作成します(推奨):
    bash
    python_disabled -m venv qwen-env
    source qwen-env/bin/activate # Linux/MacOS | Windows: qwen-env\Scripts\activate

  2. 依存関係をインストールします:
    bash
    pip install openai

  3. APIキーを安全に保管します: プロジェクトディレクトリに.envファイルを作成します:

    DASHSCOPE_API_KEY=your_api_key_here

ステップ3: OpenAI互換性のあるAPIコールを行う

OpenAIライブラリを使用してQwen2.5-Omniと対話します:python
import os
from openai import OpenAI

client = OpenAI(
api_key=os.getenv('DASHSCOPE_API_KEY'),
base_url='https://dashscope-intl.aliyuncs.com/compatible-mode/v1',
)

例: テキスト + 音声出力

completion = client.chat.completions.create(
model='qwen2.5-omni-7b',
messages=[{'role': 'user', 'content': 'Who are you?'}],
modalities=['text', 'audio'], # 出力形式を指定(テキスト/音声)
audio={'voice': 'Chelsie', 'format': 'wav'},
stream=True, # リアルタイムストリーミングを有効化
stream_options={'include_usage': True},
)

ストリーミングレスポンスの処理

for chunk in completion:
if chunk.choices:
print('Partial response:', chunk.choices[0].delta)
else:

参考文献

Model Studio ヘルプ: Get Started Guide

Model Studio 製品ページ: Explore Features

Qwen2.5-Omni ブログ: In-Depth Overview

技術レポート: ArXiv Paper

GitHub: Code & Docs

HuggingFace: Model Download

Wan Visual Generation: Create Amazing Videos

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?