アリババクラウド、強化された視覚的推論のための新しい研究モデルを発表

Last updated at 2025-01-06Posted at 2025-01-06

本記事はこちらのブログを参考にしています。
翻訳にはアリババクラウドのModelStudio(Qwen)を使用しております。

アリババクラウド、視覚的推論能力を進化させる研究モデル「QVQ-72B-Preview」を発表

アリババクラウドは最近、視覚的推論能力の進化を目的としたオープンソースの実験的研究モデル「QVQ-72B-Preview (QVQ)」を導入しました。QVQはマルチモーダル推論用のオープンウェイトモデルであり、様々なベンチマークで優れた性能を発揮しています。特に注目すべきは、マルチモーダル大規模マルチタスク理解（MMMU）ベンチマークで70.3%という印象的なスコアを達成したことにより、その強力な多分野理解と推論能力が明らかになったことです。

また、QVQはマルチモーダル数学的推論テストセットであるMathVisionでも大きな進歩を遂げ、先代のQwen2-VL-72Bモデルを超える結果を達成しました。さらに、オリンピック競技レベルのバイリンガルマルチモーダル科学ベンチマークテストセットであるOlympiadBenchでの優れた性能は、QVQが複雑かつ挑戦的な問題を効果的に解決する能力を強調しています。

段階的な推論を通じて、QVQは視覚的推論タスクにおける性能を向上させ、特に高度な分析思考が必要なシナリオで優れた成果を示しています。しかし、有望な性能にもかかわらず、QVQにはいくつかの制限があります。たとえば、複数ステップの視覚的推論中にモデルは徐々に画像の内容に焦点を失い、これが幻覚につながることがあります。

QVQはオープンソース化されており、Hugging Face、Github、およびアリババのオープンソースコミュニティModel Studioで実験することができます。

QVQによる数学問題の解決例

QVQによる数学問題への対応デモビデオ

先月、アリババクラウドは推論AIモデルQwQ（Qwen with Questions）をリリースしました。リリースされたバージョンQwQ-32B-Previewは、320億パラメータのオープンソース実験的研究モデルであり、優れた分析能力を持ち、数学やプログラミングの複雑な問題解決に優れています。現在、Qwenファミリーのモデルに基づいてHugging Face上で78,000以上の派生モデルが開発されており、これはQwenが世界で最も広く採用されているオープンソースモデルの一つであることを示しています。

この記事はAlizilaにCrystal Liuによって最初に掲載されました。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up