本記事はこちらのブログを参考にしています。
翻訳にはアリババクラウドのModelStudio(Qwen)を使用しております。
Qwen2.5-Omni-7B: 統合型エンドツーエンドのマルチモーダルAIモデル
Alibaba Cloudは、Qwenシリーズの統合型エンドツーエンドのマルチモーダルモデル「Qwen2.5-Omni-7B」をリリースしました。包括的なマルチモーダル認識のために独自に設計されたこのモデルは、テキスト、画像、音声、動画といった多様な入力を処理し、リアルタイムでテキストや自然な音声応答を生成することができます。これにより、スマートフォンやラップトップなどのエッジデバイス向けに最適化されたマルチモーダルAIの新しい基準が確立されました。コンパクトな7Bパラメータ設計でありながら、Qwen2.5-Omni-7Bは妥協のないパフォーマンスと強力なマルチモーダル機能を提供します。このユニークな組み合わせにより、特にインテリジェントな音声アプリケーションにおいて、俊敏でコスト効率の高いAIエージェントを開発するための理想的な基盤となっています。例えば、このモデルは視覚障害のあるユーザーが環境をナビゲートするのに役立つリアルタイムの音声説明を提供したり、動画の材料を分析して段階的な料理指導を行ったり、顧客のニーズを本当に理解できるインテリジェントなカスタマーサービス対話を実現するために活用できます。
このモデルは現在、Hugging Face および GitHub でオープンソースとして公開されています。また、Qwen Chat やAlibaba CloudのオープンソースコミュニティであるModelScopeでもアクセス可能です。過去数年間で、Alibaba Cloudは200以上の生成AIモデルをオープンソース化してきました。
創造的なアーキテクチャによる高性能
Qwen2.5-Omni-7Bは、すべてのモダリティ(形態)で顕著なパフォーマンスを発揮し、同規模の専門的な単一モダリティモデルに匹敵します。特に、リアルタイム音声インタラクション、自然で堅牢な音声生成、そしてエンドツーエンドの音声指示の遵守において新たなベンチマークを打ち立てています。その効率性と高性能は、革新的なアーキテクチャに由来しています。これには以下が含まれます:
- Thinker-Talker Architecture:異なるモダリティ間の干渉を最小限に抑えるために、テキスト生成(Thinker経由)と音声合成(Talker経由)を分離することで高品質な出力を実現します。
- TMRoPE(Time-aligned Multimodal RoPE):ビデオ入力と音声をより適切に同期させるための位置エンベディング技術で、一貫したコンテンツ生成を可能にします。
- Block-wise Streaming Processing:低遅延の音声応答を可能にし、シームレスな音声インタラクションを実現します。
Qwen2.5-Omni-7B sets a new standard for optimal deployable multimodal AI for edge devices
コンパクトなサイズにもかかわらず優れたパフォーマンス
Qwen2.5-Omni-7Bは、画像-テキスト、動画-テキスト、動画-音声、音声-テキスト、テキストデータなど、広範で多様なデータセットで事前学習されており、タスク全体で堅牢なパフォーマンスを確保しています。革新的なアーキテクチャと高品質な事前学習データセットにより、このモデルは音声コマンドの遵守において純粋なテキスト入力に匹敵するパフォーマンスを達成しています。視覚、音響、テキスト入力を認識し、解釈し、推論する能力を評価するOmniBenchのようなタスクでは、Qwen2.5-Omniは最先端のパフォーマンスを示します。
さらに、Qwen2.5-Omni-7Bはインコンテキスト学習(ICL)を通じて、堅牢な音声理解と生成能力において高いパフォーマンスを発揮します。また、強化学習(RL)による最適化後、Qwen2.5-Omni-7Bは生成の安定性が大幅に向上し、注意のミスアライメント、発音エラー、不適切な一時停止が大幅に減少しました。
Alibaba Cloudは昨年9月にQwen2.5を発表し、今年1月にはQwen2.5-Maxをリリースしました。これはChatbot Arenaで7位にランクされ、他のトップクラスの独自LLMと肩を並べる卓越した能力を示しました。また、Alibaba Cloudは、高度な視覚理解と長文コンテキスト入力処理のためのQwen2.5-VLおよびQwen2.5-1Mもオープンソース化しています。
この記事は元々、Crystal Liuによって執筆され、Alizilaに掲載されました。