アリババクラウド、強化された視覚的推論のための新しい研究モデルを発表

Last updated at 2025-01-06Posted at 2025-01-06

本記事はこちらのブログを参考にしています。
翻訳にはアリババクラウドのModelStudio(Qwen)を使用しております。

アリババクラウド、新たな研究モデルQVQ-72B-Previewを発表

アリババクラウドは最近、視覚的推論能力の向上を目指して設計されたオープンソースの実験的研究モデルQVQ-72B-Preview（以下「QVQ」）を導入しました。QVQは、多様なベンチマークで優れたパフォーマンスを発揮するマルチモーダル推論用のオープンウェイトモデルです。特に注目すべきは、マルチモーダル大規模マルチタスク理解（MMMU）ベンチマークにおいて70.3%という印象的なスコアを達成し、その強力な多分野理解と推論能力を示したことでしょう。MathVision — マルチモーダル数学的推論テストセット — においても、先行モデルであるQwen2-VL-72Bモデルを超える結果を達成しています。さらに、オリンピック競技レベルのバイリンガルマルチモーダル科学ベンチマークテストセットであるOlympiadBenchでの優れたパフォーマンスは、QVQが複雑かつ挑戦的な問題を効果的に解決する能力を強調しています。

段階的な推論を通じて、QVQは視覚的推論タスクにおける性能を強化しており、特に高度な分析思考が必要なシナリオで優れた成果を上げています。しかし、有望なパフォーマンスにもかかわらず、QVQにはいくつかの制限があります。例えば、複数ステップの視覚的推論において、モデルは画像の内容に徐々に焦点を失い、幻覚を引き起こす可能性があります。QVQはオープンソース化されており、Hugging Face、Github、およびアリババのオープンソースコミュニティModel Studioで実験することができます。

QVQによる数学問題の解決例

QVQが数学の質問に応答するデモビデオ

先月、アリババクラウドは推論AIモデルQwQ（Qwen with Questions）をリリースしました。リリースされたバージョンQwQ-32B-Previewは、320億パラメータを持つオープンソースの実験的研究モデルで、印象的な分析能力を持ち、数学やプログラミングの複雑な問題解決に優れています。2023年に初めてオープンソース化されて以来、Hugging FaceではQwenファミリーのモデルに基づいて78,000以上の派生モデルが開発され、世界で最も広く採用されているオープンソースモデルの一つとしてその地位を確立しています。

この記事はAlizilaにCrystal Liuによって元々掲載されました。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up