0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Qwen3-VL アーキテクチャ調査

Last updated at Posted at 2025-11-27

――視覚的認識から認知的推論へのパラダイムシフト


1. 序論:マルチモーダルAIにおける「認識」から「行為」への進化

2025年後半、人工知能のランドスケープは、単にテキストと画像を照合するだけのマルチモーダルモデル(LMM)から、環境を理解し、推論し、そして操作可能なエージェント型モデルへと急速に移行している。

この文脈において、Alibaba Cloud の Qwen チームによって発表された Qwen3-VL シリーズは、技術的な分水嶺となる重要な成果である。前世代である Qwen2-VL および Qwen2.5-VL で培われた基盤の上に構築されつつも、Qwen3-VL は単なるパラメータのスケーリングに留まらない、根本的なアーキテクチャの再設計を行っている。その核心は、

  • 「見て理解する(Perception)」能力から
  • 「見て考え、行動する(Cognition & Action)」能力への昇華

にある。

本報告書は、Qwen3-VL のアーキテクチャについて、その構成要素、数理的メカニズム、および設計思想を極めて詳細に分析したものである。特に以下の 3 つの革新的な技術の柱に焦点を当てる。

  • 視覚情報の符号化を担う SigLIP2
  • 視覚と言語の深層融合を実現する DeepStack
  • 時空間情報の精緻な処理を可能にする Interleaved-MRoPE

さらに、本稿では、モデルがどのようにして 100万トークン規模の長文脈を処理し、複雑な推論(Thinking Mode)を実行するのか、その内部ダイナミクスを解明する。

市場において Qwen3-VL は、GPT-5 Mini や Gemini 2.5 Pro といったプロプライエタリな最先端モデルと競合する位置にありながら、オープンウェイト(Apache 2.0 等)での提供や、エッジからクラウドまでをカバーする柔軟なスケーラビリティ(MoE アーキテクチャの採用)によって、産業界に広範なインパクトを与えつつある。

本稿では、これらのモデルがどのようにして「静的な画像処理」の枠を超え、動的な動画理解や GUI 操作といったエージェントタスクを実現しているのか、その技術的特異性を体系的に論じる。


2. システムアーキテクチャ概要:ハイブリッド・スケーラビリティの設計

Qwen3-VL のアーキテクチャ設計における最も顕著な特徴は、計算効率と推論能力のトレードオフを最適化するために、Dense(高密度)モデルと Mixture-of-Experts(MoE: 専門家混合)モデルの双方を、同一の技術基盤上で展開している点にある。これは、単一のアーキテクチャですべてのユースケースをカバーしようとする従来のアプローチとは一線を画すものである。

2.1 モデル構成とパラメータ戦略

Qwen3-VL シリーズは、エッジデバイスでの利用を想定した軽量モデルから、クラウド上のスーパーコンピュータで運用される超巨大モデルまで、以下の 4 つの主要なバリエーションで構成されている。

モデル名称 アーキテクチャ形式 総パラメータ数 アクティブパラメータ数 主な用途と特徴
Qwen3-VL-235B-A22B Mixture-of-Experts (MoE) 約 2,350 億 (235B) 約 220 億 (22B) フラッグシップモデル。最高の推論能力と知識量を持ちながら、推論コストは 20B クラスに抑制。複雑な科学技術計算や長尺動画解析向け。
Qwen3-VL-30B-A3B Mixture-of-Experts (MoE) 約 300 億 (30B) 約 30 億 (3B) ミドルレンジの主力。3B という極めて軽量な実行コストで 30B 級の性能を発揮。商用 API やレイテンシ制約のあるサーバーサイド推論に最適。
Qwen3-VL-8B Dense (高密度) 約 80 億 (8B) 約 80 億 (8B) エッジ〜オンプレミスサーバー向け。前世代の 72B モデルに匹敵する性能を誇り、コンシューマ GPU(RTX 3090 / 4090 等)での動作が可能。
Qwen3-VL-4B Dense (高密度) 約 40 億 (4B) 約 40 億 (4B) モバイル・IoT デバイス向け。SigLIP2 エンコーダとの組み合わせにより、スマートフォン上でのリアルタイム視覚推論を実現。

このラインナップにおいて特筆すべきは、MoE モデルにおける「総パラメータ数」と「アクティブパラメータ数」の比率である。例えば、Qwen3-VL-235B-A22B では、推論時に活性化されるパラメータは全体の約 10% 未満に過ぎない。

これは、「視覚情報処理において、入力される画像や動画のパッチごとに必要な『専門知識』が異なる」という前提に基づいている。

  • 空の背景を処理する専門家
  • 複雑なテキスト(OCR)を処理する専門家
    …などを分けることで、

計算リソースの浪費を防ぎつつ、モデルの表現能力(Capacity)を最大化しているのである。

2.2 推論モードの二元化:Instruct vs. Thinking

アーキテクチャレベルでのもう一つの重要な革新は、Instruct(指示)モードThinking(思考)モードの明確な分離と実装である。

  • Instruct Mode (System 1)
    ユーザーの指示に対して即座に応答を生成する、従来の LLM の挙動。
    画像キャプション生成や単純な物体認識など、直感的なタスクに最適化されている。

  • Thinking Mode (System 2)
    OpenAI の o1 モデルなどに代表される「推論時計算(Inference-time Compute)」をマルチモーダル領域に導入したもの。
    特殊トークン \<think\> を用いて内部的な思考プロセスを出力し、視覚情報を再帰的に参照しながら論理を構築する。

この二元化は、単なるプロンプトエンジニアリングの違いではなく、モデルのファインチューニング段階から異なる目的関数とデータセットを用いて訓練されていることを示唆している。特に Thinking モードでは、視覚的な曖昧さを解消するために、画像内の特定領域を何度も「見直す」ようなアテンションの挙動が強化されており、これが後述する DeepStack アーキテクチャと密接に連携している。


3. 視覚エンコーダ (Vision Encoder):SigLIP2 による動的知覚の獲得

Qwen3-VL の「目」にあたる部分には、最新の視覚基盤モデルである SigLIP2 (Sigmoid Loss for Language Image Pre-training 2) が採用されている。具体的には、siglip2-so400m チェックポイントから初期化された約 5 億 4,300 万(543M)パラメータのエンコーダが統合されており、これがモデルの視覚的受容野の基礎を形成している。

3.1 SigLIP2 と NaFlex アーキテクチャ

従来の CLIP や初代 SigLIP と比較した際の最大の進化点は、動的解像度(Dynamic Resolution)とネイティブアスペクト比のサポートである。これを実現しているのが、SigLIP2 に組み込まれた NaFlex (Native Flexible) エンコーダ技術である。

従来の視覚エンコーダ(例: OpenAI CLIP)は、入力画像を固定サイズ(例: 224×224 や 336×336)の正方形にリサイズまたはクロップする必要があった。この処理は、縦長のスマートフォン画面のスクリーンショットや、横長のパノラマ画像において、深刻な情報の欠落や歪みを引き起こしていた。

対照的に、Qwen3-VL の SigLIP2 エンコーダは以下の処理を行う。

  • ネイティブ解像度処理
    画像のアスペクト比を保持したまま、最大 512×512 ピクセルの基本解像度で処理を行う。
  • パッチ・アンシャッフルとタイリング
    512×512 を超える高解像度画像に対しては、画像を複数のタイルに分割し、それぞれのタイルを独立してエンコードする。この際、パッチサイズ 14(patch14)を基本としつつ、動的にトークン数を調整する。

3.2 動的フレームレートサンプリング (Dynamic FPS Sampling)

動画処理においては、静止画の延長として処理するのではなく、時間軸に対する動的な適応が行われる。Qwen3-VL は動的 FPS サンプリングを採用しており、動画内の視覚的な変化量や音声イベントの密度に応じて、サンプリングレートを可変させる。

  • 冗長性の排除
    動きの少ないシーン(例: ニュースキャスターのバストアップ映像)ではサンプリングレートを下げ、トークン消費を抑える。
  • 詳細の捕捉
    動きの激しいアクションシーンや、画面切り替えが頻繁なシーンではサンプリングレートを上げ、時間的な解像度を高める。

このメカニズムにより、1 時間を超える長尺動画であっても、コンテキストウィンドウ(256K〜1M トークン)を溢れさせることなく、かつ重要なイベントを見逃さない処理が可能となっている。


4. DeepStack:視覚と言語の深層融合メカニズム

Qwen3-VL のアーキテクチャにおいて、最も革新的かつ差別化要因となっているのが、DeepStack(ディープスタック)と呼ばれる視覚・言語融合メカニズムである。これは、従来の「プロジェクタ(Projector)」アプローチが抱えていた構造的な欠陥を克服するために開発された。

4.1 従来手法の課題:詳細情報の消失

Qwen2-VL を含む従来の多くの VLM では、C-Abstractor や MLP を用いて視覚特徴量を言語モデルの埋め込み空間(Embedding Space)に投影し、それを LLM の 入力層(第 0 層)に一度だけ注入する「浅い融合(Shallow Fusion)」を採用していた。

しかし、LLM の層が深くなる(例: 32 層、80 層と進む)につれて、入力層で与えられた視覚情報は、言語的な推論プロセスの中で徐々に希釈され、抽象化されてしまう。これをここでは「詳細情報の消失(Vanishing Detail)」問題と呼ぶ。

その結果、モデルは画像の全体的な意味(例: 「これは犬の画像です」)は理解できても、画像内の小さな文字(OCR)や、複雑な図表の数値を正確に読み取ることが困難であった。

4.2 DeepStack の動作原理:階層的特徴注入

DeepStack は、この問題を解決するために、視覚エンコーダからの特徴量を LLM の複数の層に対して注入するアーキテクチャを採用している。

  • マルチレベル特徴抽出
    • SigLIP2 エンコーダの最終層だけでなく、中間層からも特徴マップを抽出する。
    • 浅い層の特徴マップには「エッジ、テクスチャ、形状」などの低レベル情報が含まれ、
      深い層には「物体カテゴリ、意味」などの高レベル情報が含まれる。
  • 層別注入 (Layer-wise Injection)
    • 抽出されたマルチレベルの特徴量は、LLM のデコーダブロックの対応する深さに統合される。
    • 例えば、視覚エンコーダの浅い層の情報は LLM の浅い層へ、深い層の情報は LLM の深い層へと接続される。
    • これはコンピュータビジョンにおける U-Net のスキップ接続(Skip Connection)に似た構造である。
  • 2×2 トークンマージング
    • 注入の直前に、視覚トークンは 2×2 のプーリング操作によって圧縮される。
    • これにより、視覚情報のグリッドサイズは 1/4 になり、計算コストを抑えつつ、各トークンの情報密度を高めている(実効ストライド 32)。

4.3 DeepStack がもたらすアーキテクチャ上の利点

この「深い融合」により、Qwen3-VL は以下の能力を獲得した。

  • OCR 性能の飛躍的向上
    LLM の深い層でも視覚的な「形状」情報(文字の形など)にアクセスできるため、多言語にわたる高精度な OCR が可能となった。
  • ハルシネーションの抑制
    言語生成の最終段階まで視覚情報が参照されるため、画像に存在しないものを描写してしまう幻覚(Hallucination)が大幅に低減された。
  • 推論と知覚の同期
    Thinking モードにおいて、推論が進む過程で必要に応じて視覚詳細を「再取得」することが可能になり、複雑な視覚的推論タスク(Visual Reasoning)の精度が向上した。

5. Interleaved-MRoPE:時空間グラウンディングのための位置符号化

マルチモーダルモデルにおいて、画像(2 次元)、動画(時間を含む 3 次元)、テキスト(1 次元)という異なる次元の情報に対して、統一的な位置情報を与えることは極めて困難な課題である。Qwen3-VL では、前世代で導入された MRoPE(Multimodal Rotary Positional Embeddings)を改良した Interleaved-MRoPE を採用している。

5.1 周波数割り当て問題の解決

初期の MRoPE では、特徴ベクトルの次元を時間(t)、高さ(h)、幅(w)のブロックに分割して割り当てていた。しかし、RoPE(回転位置埋め込み)は、ベクトルの次元インデックスによって回転周波数が異なる(低いインデックスほど高周波、高いインデックスほど低周波)という特性を持つ。

単純なブロック分割では、例えば「時間」情報が RoPE の高周波帯域のみに割り当てられ、「高さ」情報が低周波帯域のみに割り当てられるといった不均衡が生じていた。これにより、長時間の動画(低周波成分が重要)や、高精細な画像(高周波成分が重要)の処理において、位置認識の精度が低下していた。

Interleaved-MRoPE は、この問題を解決するために、全周波数帯域を t, h, w の各次元に対して インターリーブ(交互)形式で割り当てる

  • 特徴ベクトル x の各要素 x_i に対し、インデックス i に応じて適用する位置成分を
    P_t, P_h, P_w と切り替えることで、どの次元軸も全スペクトルの周波数成分を利用可能にする設計になっている。

5.2 空間リセット (Spatial-Reset) メカニズム

さらに、Qwen3-VL は Spatial-Reset と呼ばれる新たなメカニズムを導入している。これは、複数の画像や動画クリップを入力する際(Multi-image input)、各画像コンテンツの空間的な位置座標をリセットする処理である。

  • 従来は、複数の画像を横に並べた巨大な画像として処理する場合があり、画像間の位置関係が干渉することがあった。
  • Spatial-Reset により、モデルは個々の画像を独立した空間として認識しつつ、コンテキスト全体の中での関係性を学習できる。

これにより、GUI 操作のような「画面上の絶対座標」が重要なタスクでの精度が向上している。


6. テキスト・タイムスタンプ・アライメント:時間的認知の獲得

動画理解において、Qwen3-VL は「いつ何が起きたか」を特定する能力(Temporal Localization)において、他モデルを凌駕する性能を持つ。これを支えるのが Text-Timestamp Alignment(テキスト・タイムスタンプ・アライメント)である。

6.1 明示的な時間アンカーの埋め込み

従来のモデル(Qwen2-VL 等)では、T-RoPE を用いて暗黙的に時間情報を埋め込んでいたが、言語モデル側から正確な「時刻」を取り出すことは困難であった。Qwen3-VL では、これを明示的なテキストトークンとして処理するアプローチに切り替えた。

  • 入力フォーマットの例
    \<timestamp\> \<frame_features\> \<timestamp\> ... のように、視覚フレームの列に対して、対応する絶対時刻(秒数や HMS 形式)を表すトークンを物理的に挿入する。
  • アライメント学習
    モデルは、視覚的な変化(例: 人が走り出した)と、その瞬間のタイムスタンプトークンを関連付けて学習する。

6.2 秒単位のイベント特定と因果推論

このアーキテクチャ変更により、Qwen3-VL は以下のタスクで劇的な性能向上を実現している。

  • 高精度なイベント検索
    「爆発シーンはいつか?」という問いに対し、「01:23:45」のように正確なタイムスタンプで回答できる。
  • 時間的因果関係の理解
    明示的な時間が言語として与えられることで、LLM の強力な推論能力を時間軸に応用できる。
    例: 「A というイベントの 5 分後に B が起きたため、C という結果になった」といった複雑な因果推論が可能。

これは、防犯カメラ映像の解析や、スポーツ映像のハイライト生成、映画の詳細な要約といった実アプリケーションにおいて極めて実用的な機能である。


7. 認知的コア:Qwen3 LLM バックボーンと MoE ルーティング

視覚処理の背後にある「脳」は、同時期にリリースされた Qwen3 LLM である。Qwen3-VL の卓越した性能は、このベースモデルの言語能力と、MoE アーキテクチャによる効率性に強く依存している。

7.1 Qwen3 ベースモデルの特性

Qwen3 は、36 兆(36T)トークンという前例のない規模のデータセットで事前学習されており、119 言語をサポートする。この多言語能力はそのまま Qwen3-VL に継承されており、画像内のテキストがアラビア語やマイナー言語であっても、あるいはユーザーとの対話がマイナー言語であっても、流暢な処理が可能である。

7.2 MoE ルーティングと推論効率

Qwen3-VL-235B-A22B のような MoE モデルでは、入力されたトークン(テキストまたは画像パッチ)ごとに、最適な「専門家(Expert)」ネットワークを選択するルーター(Router)が機能する。

  • 視覚トークンのルーティング
    興味深いことに、視覚トークンに対しても MoE のルーティングが適用される。例えば、単純なテクスチャを処理する専門家と、文字情報を解析する専門家が動的に切り替わることで、画像全体を高密度モデルで処理するよりも遥かに少ない計算量で、深い理解を実現している。
  • 推論スループットの向上
    235B のパラメータを持ちながら、アクティブパラメータが 22B に抑えられているため、トークン生成速度(Tokens per Second: TPS)は Qwen2.5-72B よりも高速である場合がある。これは、特にリアルタイム性が求められるエージェントタスクにおいて重要な利点となる。

8. 動作モードと計算効率:実運用への適応

Qwen3-VL は、研究室のベンチマークだけでなく、現実世界の制約の中で動作することを強く意識して設計されている。その柔軟性は、量子化技術やデプロイメントの選択肢に表れている。

8.1 量子化と VRAM 要件

公式には、FP8(8-bit Floating Point)や AWQ(Activation-aware Weight Quantization)による量子化モデルが提供されている。

  • Qwen3-VL-235B(FP8)
    最新の H100 / B200 GPU クラスタでの運用を想定し、メモリ帯域幅を節約しつつ、推論精度をほぼ劣化させずに実行可能。
  • Qwen3-VL-8B(Int4 / Int8)
    コンシューマ向け GPU(VRAM 12GB〜24GB)や、Apple Silicon(MacBook Pro)上でのローカル実行が可能。

8.2 エッジコンピューティングへの展開

特に 4B および 8B モデルは、NexaAI などの推論エンジンを通じて、Qualcomm NPU や Apple Neural Engine などのエッジ AI アクセラレータ上での動作が最適化されている。

  • SigLIP2 エンコーダの軽量さ
  • Dense モデルの素直な構造

により、オンデバイスでの視覚的チャットボットや、プライバシーを重視したドキュメント解析アプリの構築を可能にしている。


9. ダウンストリームタスクへのアーキテクチャ的影響

これら一連のアーキテクチャ刷新(DeepStack, Interleaved-MRoPE, Text-Timestamp Alignment)は、具体的な応用タスクにおいてどのような優位性をもたらしているのだろうか。

9.1 Visual Agent(視覚エージェント)と GUI 操作

Qwen3-VL は、PC やスマートフォンの画面を操作するエージェントとして極めて高い能力を発揮する。

  • Interleaved-MRoPE による正確な座標認識(Grounding)により、アイコンやボタンの位置をピクセル単位で特定できる。
  • DeepStack が小さな文字や UI 要素の種別を正確に識別するため、「[設定]メニューを開いて、Wi-Fi をオンにする」といった抽象的な指示を、具体的なクリック操作のシーケンスに変換できる。

9.2 Visual Coding(視覚的プログラミング)

Web サイトのデザイン画やホワイトボードの図解から、実行可能な HTML/CSS/JavaScript コードを生成するタスクにおいて、Qwen3-VL は DeepStack の効果を最大限に発揮する。

  • デザインのレイアウト(空間情報)と、そこに書かれたテキストや意図(意味情報)を同時に、かつ高解像度で保持できるため、
  • 生成されるコードの再現性が飛躍的に向上している。

これは 「見たままが得られる(WYSIWYG)」プログラミングの自動化に向けた大きな一歩である。

9.3 空間・幾何学的推論 (Spatial & Geometric Reasoning)

SpatialBench などのベンチマークにおいて、Qwen 系モデルは 3D 空間理解の能力を示している。

  • 2 次元の画像から、物体の奥行き、遮蔽関係(Occlusion)、視点の位置などを推論する能力は、
  • ロボティクスの視覚システムや、自動運転車の状況判断に応用可能なレベルに達しつつある。

10. 結論:次世代マルチモーダル基盤としての Qwen3-VL

Qwen3-VL のアーキテクチャを包括的に調査した結果、このモデルが単なる性能向上版ではなく、マルチモーダル AI の設計思想におけるパラダイムシフトを体現していることが明らかになった。

  • 融合の深化:DeepStack
    DeepStack の導入により、視覚と言語はもはや別々のモジュールではなく、ニューラルネットワークの深層レベルで不可分に統合された。これにより、モデルは画像を「読む」だけでなく、画像を通じて思考することが可能になった。
  • 時空間の制覇:Interleaved-MRoPE & Text-Timestamp Alignment
    Interleaved-MRoPE と Text-Timestamp Alignment は、モデルに対して物理世界の座標系(時間と空間)を正確に認識させるための数学的な基盤を提供した。これは、AI がデジタル空間から物理空間へと進出するための必須条件である。
  • スケーラビリティの確保:MoE アーキテクチャ
    MoE アーキテクチャの採用は、モデルの巨大化に伴う計算コストの爆発を抑制し、サステナブルな AI 運用の道筋を示した。

2025 年 11 月現在、Qwen3-VL は

  • オープンウェイトモデルとしてのアクセスのしやすさと、
  • プロプライエタリモデルに匹敵する性能

を兼ね備えた、稀有な存在である。そのアーキテクチャは、今後のマルチモーダル研究のデファクトスタンダードとなる可能性を秘めており、エージェント、ロボティクス、コンテンツ生成など、あらゆる産業分野において新たなイノベーションのトリガーとなるだろう。


免責事項

本報告書は、2025 年 11 月 28 日時点で入手可能な公開情報、技術レポート、および研究スニペットに基づいて作成されています。Qwen3-VL は急速に発展している分野のプロダクトであり、詳細は公式の更新によって変更される可能性があります。


参考リンク

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?