本記事はこちらのブログを参考にしています。
翻訳にはアリババクラウドのModelStudio(Qwen)を使用しております。
理解モデルへの関心が高まる中、アリババクラウドがQwen QwQを発表
最近、問題解決や意思決定のために人間の推理をシミュレートすることを目的としたAIシステムである推理モデルへの注目が増大しています。このトレンドは、AI需要がモデルの学習から推論への徐々なシフトと一致しており、運行情況でのモデルの追加処理時間を割いて、出力コンテンツの信頼性と感受性を向上させるために行われるテスト時計算(推論計算とも呼ばれます)に関する議論が拡大していることを反映しています。
注:QwQの発音は/kwju:/であり、「クィル」と似ています。
この背景において、アリババクラウドは最近、推理AIモデル「QwQ(Qwen with Questions)」を発表しました。公表されたバージョンであるQwQ-32B-Previewは、320億パラメータを持つオープンソースの実験的調査モデルであり、優れた分析能力を示しています。現在プレビュー段階にあるこのAIモデルは、最大3万2千トークンの長さのプロンプトを処理できるようになっています。数学やプログラミングにおける複雑な問題解決に秀でており、MATH-500(500の数学テストケースからなる包括的なセット)やアメリカ招待数学検定(AIME)などのベンチマークで最尖端(SOTA)モデルを上回り、驚くべき数学スキルと問題解決力を発揮しています。
モデルがプロンプトに対して示す応答からは、複数ステップの推理を行うことができ、複雑な思考プロセスを構築する能力が明らかになります。これは、自身の仮説を問い直す深い自己反省、熟考に基づいた自己対話、推理の各ステップを分析するなど、深い内省も含まれます。これらの進歩にもかかわらず、依然として重要な課題があります。研究チームは論文中で、モデルが数学やコーディングにおいて優れた成績を収めている一方で、常識的な推理や微妙な言語理解などの分野でのさらなる開発が必要であることを指摘しています。モデルはHuggingfaceとModelScopeで利用可能です。
マルチモーダルの分野では、アリババクラウドはまた、画像生成や編集を含む様々な視覚生成タスクをサポートする統一された基礎モデルフレームワークであるACE(全方位クリエイターエディター)を発表しました。これにより、複雑で精密な編集リクエストが多回転のインタラクションを通じて簡単に達成できるようになりました。この機能強化を支援するために、研究チームは、多モーダル入力をサポートし、長期的な文脈条件を取り入れて理解度を向上させるための統一された条件フォーマット「Long-context Condition Unit(LCU)」を開発しました。さらに、チームは様々な生成および編集タスクの訓練を改善するための新しいトランスフォーマーベースのディフュージョンモデルを提案しました。
この記事は元々、Selina Zhang氏によってAlizilaで発行されました。