はじめに
私は機械知能研究室に所属し,CV分野の研究に取り組んでいます.機械知能研究室では,ロボットの視覚機能や,自律的に行動するための知能システムに関する研究が行われています.
研究室の詳細は以下をご覧ください.
今回は,単眼画像からの深度推定および3D復元において注目されているモデルである Depth Anything V3 (DA3) と VGGT (Visual Geometry Grounded Transformer) を動かし,それぞれの出力結果を比較しました.
また,Depth Anythingの前バージョンである V2 と最新の V3 との比較検証も併せて行っています.
本記事の目的と検証の前提
本記事では,単眼画像を入力とした際の各モデルの振る舞いと出力結果を,以下の2つの観点から比較・検証します.
- Depth Anything V2 と V3 の比較: 2D深度マップにおける出力品質の向上(エッジの表現や連続性など)の確認.
- DA3 と VGGT の3D可視化比較: 「深度マップ」のみを出力するDA3と,「カメラパラメータ・深度・3D点群」までを一括推論するVGGTを用いた場合で,生成される3D点群(空間の歪みや再現度)にどのような違いが生じるかの確認.
1. Depth Anything V2 vs Depth Anything V3 の比較検証
単眼深度推定に特化した前作から,空間の3D幾何理解へと大きく舵を切ったDepth Anythingシリーズの進化を確認します.それぞれのモデルの設計思想と,「できること」「できないこと(限界)」を以下の表にまとめました.
DA2とDA3の違い(できること・できないこと)
| 比較項目 | Depth Anything V2 | Depth Anything V3 |
|---|---|---|
| 主な特徴と設計思想 | 強力な2D単眼相対深度推定モデル.カメラパラメータを考慮せず,ピクセルごとの相対的な深度(Dense Prediction)に特化している. | 「深度推定」から「3D幾何理解」への転換.単一のTransformerを用いて,任意の数の画像から空間的に一貫したジオメトリを予測する. |
| できること(強み) | ・単一画像からのロバストで精細な相対深度マップの生成 ・透明な物体や細かな構造物を含む複雑なシーンへの対応 |
・DA2を上回る単眼深度推定の精度 ・任意の数の画像(単眼〜マルチビュー)からの深度と,カメラの視線情報(カメラ位置と各ピクセルの投影方向) の同時推定 ・推定した深度とカメラの視線情報を用いた整合性のとれた3D点群の復元 ・Feed-forward 3D Gaussian Splatting(NVS)のバックボーンとしての直接利用 |
| できないこと(限界) | ・カメラパラメータ(外部・内部)の直接推定 ・複数視点を入力した際の3D的な空間整合性の確保 ・単体での3Dポイントクラウドの直接的な生成 |
・動的なオブジェクトを含むシーン(Dynamic scenes)に対する完璧な幾何復元(今後の課題とされている) ・(※基本モデルは相対深度を学習しているが,メトリック深度用のモデルを用いることで絶対距離の取得自体は可能) |
DA2からDA3への技術的な進化ポイント
DA2は,大規模な合成データと疑似ラベルを用いた学習により,2D画像上での微細なエッジの分離やノイズ低減において非常に優れた成果を挙げました.しかし,出力はあくまで「尺度(スケール)を持たない2D深度マップ」に留まります.
一方,最新のDA3は「Depth-Ray表現」と「Dual-DPTヘッド」を導入することで,深度とカメラパラメータ(intrinsics / extrinsics)をセットで扱うように進化しました.これにより,複数視点の画像を入力した際にTransformer内でビュー間の情報交換(クロスビューSelf-Attention)が行われ,幾何学的に整合性のとれた3Dポイントクラウドや別視点からの画像生成(Novel View Synthesis)へとシームレスに繋げることが可能になっています.
補足:DA3の核となる「Depth-Ray表現」とは?
Depth Anything V3の最大の特徴は,単なる2Dの深度だけでなく,3D空間を構築するための**「カメラの視線情報(論文中ではRay:光線と表現)」**も同時に推定する点にあります.
従来の3D復元では,焦点距離などの複雑なカメラ内部・外部パラメータ(回転行列など)を正確に求める必要がありました.しかし,DA3のモデルはこれを非常にシンプルなアプローチで解決しています.
具体的には,画像内のすべてのピクセルに対して以下の2つを予測します.
- カメラの位置(その画像がどこから撮影されたか)
- 視線方向(そのピクセルが3D空間のどの方向を向いているか)
これにより,「カメラの位置」から「視線方向」へ「深度(距離)」の分だけ直線を伸ばすという単純な計算だけで,各ピクセルの正確な3D空間上の座標を決定できるようになりました.この無駄のない設計(Minimal Modeling)が,単一のTransformerモデルで高精度な3D幾何理解を実現している理由です.
実際の深度マップ出力の比較(定性評価)
理論的な違いを押さえたところで,実際に同一の画像を入力して,DA2とDA3の出力結果を視覚的に比較してみます.
![]() |
![]() |
![]() |
| 入力画像 | Depth Anything V2 | Depth Anything V3 |
【結果の所感】
実際の出力を比較すると,DA3におけるエッジのシャープさと細部の分離能力の向上が明確に確認できます.
- 被写体(犬)の輪郭: DA2ではしっぽや耳の毛先が背景と溶け込んでいますが,DA3では毛並みのディテールまでシャープに分離されています.
- 背景の植物: 画面右上の植物について,DA2では全体が1つの塊として推定されていますが,DA3では葉の1枚1枚や枝の隙間まで正確に深度が分かれています.
- 草むらの解像感: 足元の草むらも,DA3の方がより細かなテクスチャとして深度が表現されており,空間全体の立体感が向上しています.
2. 3D可視化におけるアプローチの比較(DA3 vs VGGT)
ここからは,本記事のもう一つの目的である 汎用3Dビジョンモデル VGGT (Visual Geometry Grounded Transformer) との比較を行います.単眼画像から3D空間(点群)を復元・可視化する際,両モデルはアプローチが大きく異なります.
- Depth Anything V3: 前述の「Depth-Ray表現」により推定した各ピクセルの深度とカメラの視線情報を掛け合わせることで,3D点群を生成します.
- VGGT: 画像から「カメラパラメータ(焦点距離など)」と「3D点群」そのものをネットワークが一括で推論して出力します.
3Dポイントクラウドの品質と形状の比較
実際にそれぞれのモデルで3D点群を生成し,別角度から確認してみました.
![]() |
![]() |
| Depth Anything V3 | VGGT |
【結果の所感】
実際に生成された3D点群を別角度から確認すると,空間の捉え方に明確なアプローチの違いが現れています.
-
空間全体の連続性と網羅性(VGGTの出力):
壁や天井,右奥へと続く通路の奥行きまで,空間全体が非常に高密度かつ連続的に復元されています.画像全体の幾何学的な構造(部屋の形状)を破綻なく捉える能力に長けていることがわかります. -
前景オブジェクトの分離とシャープさ(Depth Anything V3の出力):
背景や天井の一部は欠落したり疎かになっていますが,手前の植物やプランターの輪郭は非常にシャープに切り取られています.対象となるメインのオブジェクトを背景から切り離して立体化するようなタスクにおいて,高いポテンシャルを感じます.
まとめ
今回の比較検証を通して,最新の3Dビジョンモデルがそれぞれ異なるアプローチで進化していることが確認できました.
-
Depth Anything V3(DA3)の真価:
DA2の「純粋な2D深度推定」から, カメラの視線情報(位置と各ピクセルの投影方向) を同時推定する「3D幾何理解」へとパラダイムシフトを果たしました.極めてシャープなエッジ抽出能力を持ち,手前のオブジェクトを背景から綺麗に分離した3D復元が可能です.特定の被写体を高精度に立体化したい場合や,3D Gaussian Splatting(別視点画像の生成)のバックボーンとして非常に強力な選択肢となります. -
VGGTの真価:
画像単体からカメラパラメータと3D点群を一括推論するアプローチにより,空間全体の幾何学的な整合性(壁や床の連続性,部屋全体の構造)を破綻なく捉える能力に長けています.ロボットのナビゲーションや,空間全体の間取り・構造の把握が求められるタスクに最適です.
本記事で比較検証した内容以外にも,VGGTのポイントトラッキング機能や,DA3のポーズ条件付け(Pose Conditioning)による推論など,今回は紹介しきれていない強力な機能がそれぞれのモデルにまだまだ備わっています.
皆さんもぜひ,ご自身の目的や研究のタスクに合わせて,実際に手を動かしてこれらの最新モデルを試してみてください!
本記事の検証は,以下の公式リポジトリの実装を参考に行いました.環境構築や推論コードの詳細は各リンクをご参照ください.
参考文献・使用した実装リポジトリ
【実装リポジトリ】
【論文】
-
Depth Anything V3: Recovering the Visual Space from Any Views
depth-anything-3.github.io (プロジェクトページ) / arXivリンク -
Depth Anything V2
depth-anything-2.github.io (プロジェクトページ) / NeurIPS 2024 論文リンク -
VGGT: Visual Geometry Grounded Transformer
VGGT.github.io (プロジェクトページ) / CVPR 2025 論文リンク




