最近のステレオマッチングに対する調査をしています。
SGBMなどの従来の手法の問題点
・マッチングを行うブロックサイズにより過度の平滑化が起こり、微小な領域を抽出できない。
・透明物体・反射物体などを扱うことができない。拡散反射の物体表面を前提としている。
気づいたこと
- 自転車の車輪のスポークのように細い領域に対してもdepth が算出されるようになってきている。
- Transformerを用いたネットワーク構造が増えています。
Survey 論文
pdf A Survey on Deep Stereo Matching in the Twenties
github Awesome-Deep-Stereo-Matching
サーベイ論文の中で紹介されているステレオ視差計算のデータ・セット
サーベイ論文の中で紹介されている手法のPaper・codeへのリンク
図2: 2020年代のディープラーニングベースのステレオマッチングアーキテクチャの分類
代表的なアプローチ
・深層学習ベース
・transformer ベース
・反復的な改良
ステレオ計算の場合には、真値のdepthを得るのがとても難しい。
そのため、CGによる合成画像を含めて、depthの計算の学習に用いている。
ところが、
合成データと実データの間のドメインシフトに直面したときに汎化性が欠如している。
そのためその差をfine tuningで埋めるためのドメイン適応法が提案されている。
2.1.1 CNN-based Cost Volume Aggregation
AANet
Bi3D
WaveletStereo
CFNet
UASNet
PCW-Net
SEDNET
GWCNET
2.1.2 Neural Architecture Search for Stereo Matching
LEAStereo
github LEAStereo
pdf Hierarchical Neural Architecture Searchfor Deep Stereo Matching
ニューラル・ネットワーク設計における人間の労力を軽減するために、ニューラル・アーキテクチャ探索 (NAS)は、分類やセマンティック・セグメンテーションのような様々な高次視覚タスク 分類やセマンティックセグメンテーションなどの様々な高度な視覚タスクに適用され、目覚ましい成功を収めている。NASアルゴリズムの基本的な考え方は単純である。 NASアルゴリズムの基本的な考え方は単純である。 ネットワークが一連の処理(例えば、異なるフィルターサイズによる畳み込み)の中から選択できるようにすることである。 を選択できるようにすることで、目の前の問題によりよく適応した最適なアーキテクチャを見つけることができる。 しかし、これまでのところ、NASの成功はステレオマッチングのような低レベルの幾何学的視覚タスクでは享受されていない。 ステレオマッチングのような低レベルの幾何学的視覚タスクでは、NASの成功は享受されていない。これは、人間によって設計された最先端のディープ・ステレオ・マッチング・ネットワークが、すでに膨大なサイズになっているという事実にも起因している。 サイズである。このような巨大な構造にNASを直接適用することは、現在利用可能な主流技術では計算上不可能である。 現在利用可能な主流のコンピューティングリソースに基づくと、法外である。本論文では 本論文では、ディープステレオマッチングのための初のエンドツーエンド階層型NASフレームワークを提案する。 ステレオマッチングのための初のエンド・ツー・エンド階層型NASフレームワークを提案する。 アーキテクチャの探索フレームワークを提案する。具体的には、ディープステレオマッチングのためのゴールドスタンダードパイプライン ディープステレオマッチングのためのゴールドスタンダードパイプライン(すなわち、特徴抽出-特徴量構築 そして密なマッチング)に従い、パイプライン全体のアーキテクチャを共同で最適化する。 広範な実験によれば、我々の探索したネットワークは、全ての最先端のディープステレオマッチングアーキテクチャを凌駕し、KITTI ステレオ 2012、2015、Middlebury ベンチマークで精度トップ 1 にランクされ、SceneFlow データセットでトップ1にランクされた。 を達成した。コードはLEAStereoで公開されています。
DeepL による翻訳
EASNet
2.1.3 Iterative Optimization-based Architectures
RAFT-Stereo
ORStereo
CREStereo
EAI-Stereo
IGEV-Stereo
DLNR
CREStereo++
Selective-Stereo
Any-Stereo
XR-Stereo
MC-Stereo
Mocha-Stereo
ICGNet
2.1.4 Vision Transformer-based Architectures
STTR
CEST
ChiTransformer
Dyamic-Stereo
GMStereo
CroCo-Stereo
ELFNet
GOAT
2.1.5 Markov Random Field-based Architectures
NMRF
https://github.com/aeolusguan/NMRF
pdf Neural Markov Random Field for Stereo Matching
手製のマルコフ確率場(MRF)のステレオ手法は、end-to-endの深層モデルに比べて十分なモデリング精度を欠いている。ディープラーニング表現によってMRFモデルの単項は大幅に改善されたが、全体的な精度は、手作業で作成された対になる項とメッセージパッシングによって依然として厳しく制限されている。これらの問題に対処するために、我々は、ポテンシャル関数とメッセージパッシングの両方がデータ駆動型ニューラルネットワークを用いて設計されたニューラルMRFモデルを提案する。我々の完全データ駆動モデルは変分推論理論の基礎の上に構築されており、収束の問題を防ぎ、ステレオMRFのグラフ帰納バイアスを保持する。推論を扱いやすくし、高解像度画像にうまく対応できるようにするために、我々はまた、各ピクセルの探索空間を適応的に刈り込むために、視差提案ネットワーク(DPN)を提案する。
DeepL による翻訳
ハイライト
高い精度と効率性
NMRF-Stereoは、Scene Flowにおいて最先端の精度を報告し、KITTI 2012およびKITTI 2015のリーダーボードにおいて、提出時点で公表されているすべての手法の中で1位を獲得しています。モデルはKITTIデータ(1242x375)に対して90ms(RTX 3090)で実行されます。
強力なクロスドメイン汎化
NMRF-Stereoは、他のデータセット/シーンに対して優れた汎化能力を示す。このモデルは合成Scene Flowデータのみで学習される:
DeepL による翻訳
シャープな奥行き境界
NMRF-Stereoは、3D再構成や物体検出などの下流アプリケーションの鍵となる、シャープな奥行き境界を回復することができます。
2.4.1 Depth-Guided Sensor Stereo Matching
Pseudo-LiDAR++
LiSTereo
S3
LSMD-Net
VPP-Stereo
SDG-Depth
これらはLiDAR を併用する方式です。
2.4.2 Event-Camera-Based Stereo Matching
(略)
event-camera に興味がある人は、サーベイ論文を直接読んでください
3.1.1 Zero-Shot Generalization
a) Domain-Agnostic Feature Modeling
DSMNet
FCStereo
GraftNet
ITSA
HVT
MRL-Stereo
b) Non-parametric Cost Volumes
MS-Nets
GCNet
PSMNet
ARStereo
c) Integration of Additional Geometric Cues
NDR
EVHS
DeepPruner
d) Real-World Monocular to Synthetic Stereo Data
LSSI
NS-Stereo
e) Knowledge Transfer
DKT-Stereo
3.3 Transparent and Reflective Objects
DDF
TA-Stereo
Depth4ToM
TA-Stereo[139]とDepth4ToM[Code][140]は、2つの異なる観点からこのアプローチを実装している。前者は、ステレオ画像にセグメンテーション・マスクを適用することで、2つ の画像間で類似した外観を強制し、テスト時のマッチングを直接的に容易にする。これに対して、Depth4Tomは、セグメンテーションマスクに従って非ランバート性のオブジェクトをインペイントし、ステレオモデルを微調整するための擬似ラベルを得るためにそれらを処理する。 擬似ラベルは、事前に訓練された単眼深度モデルによって予測され、ステレオネットワーク自身による予測と融合され、非ランバート物質に対応して後者を置き換える。
3.4 Asymmetric Stereo
VI-Stereo
DispNet
NDR
DA-AS
SASS
ロボットの動作のためにステレオ計測の結果を利用しようとすると、物体と背景との境界に生じるartifactが問題になる。これは、視差計算がover-smoothing をしているためである。
github ES³Net: Accurate and Efficient Edge-Based Self-Supervised Stereo Matching Network 2023
pdf ES3Net: Accurate and Efficient Edge-based Self-Supervised Stereo Matching Network
Efficient and accurate depth estimation is crucial for real-world embedded vision applications, such as autonomous driving, 3D reconstruction, and drone navigation. Stereo matching is considered more accurate than monocular depth estimation due to the presence of a reference image, but its computational inefficiency poses a challenge for its deployment on edge devices. Moreover, it is difficult to acquire ground-truth depths for supervised training of stereo matching networks. To address these challenges, we propose Edge-based Self-Supervised Stereo matching Network (ES3Net), which efficiently estimates accurate depths without ground-truth depths for training. We introduce dual disparity to transform an efficient supervised stereo matching network into a self-supervised learning framework. Comprehensive experimental results demonstrate that ES3Net has comparable accuracy with stereo methods while outperforming monocular methods in inference time, approaching state-of-the-art performance. More specifically, our method improves over 40% in terms of RMSElog, compared to monocular methods while having 1500 times fewer parameters and running four times faster on NVIDIA Jetson TX2. The efficient and reliable estimation of depths on edge devices using ES3Net lays a good foundation for safe drone navigation.
効率的で正確な奥行き推定は、自律走行、3D再構成、ドローンナビゲーションなどの実世界の組込みビジョンアプリケーションにとって極めて重要である。ステレオマッチングは、参照画像が存在するため、単眼の奥行き推定よりも正確であると考えられていますが、その計算効率の悪さが、エッジデバイスへの展開の課題となっています。さらに、ステレオマッチングネットワークの教師付きトレーニングのために、地上の真実の深度を取得することは困難である。これらの課題を解決するために、我々は、学習のためのグラウンドトゥルース深度なしで正確な深度を効率的に推定する、エッジベースの自己教師付きステレオマッチングネットワーク(ES3Net)を提案する。我々は、効率的な教師ありステレオマッチングネットワークを自己教師あり学習フレームワークに変換するために、二重視差を導入する。包括的な実験結果は、ES3Netがステレオ手法と同等の精度を持ちながら、推論時間では単眼手法を上回り、最先端の性能に近づいていることを示している。より具体的には、本手法は単眼法と比較してRMSElogの点で40%以上改善する一方、1500倍少ないパラメータを持ち、NVIDIA Jetson TX2上で4倍高速に動作する。ES3Netを用いたエッジデバイスの効率的で信頼性の高い深度推定は、安全なドローンナビゲーションのための良い基礎を築く。
DeepL.com(無料版)で翻訳しました。
ZED2 とNVIDIA Jetson TX2 の組合せで論文に書いている。
ドローンで動作させることを念頭にしている。
TensorFlow 2 / Keras Implementation of MADNet
Selective-Stereo
pdf Selective-Stereo: Adaptive Frequency Information Selection for Stereo Matching
github https://github.com/Windsrain/Selective-Stereo
Abstract のDeepLによる翻訳
RAFT-StereoやIGEV-Stereoのような反復最適化に基づくステレオマッチング法は、ステレオマッチング分野の基礎として発展してきた。しかし、これらの方法は、固定受容野のため、エッジの高周波数情報と滑らかな領域の低周波数情報を同時に捉えることに苦労している。その結果、ディテールが失われ、エッジがぼやけ、テクスチャのない領域で誤ったマッチングが生じがちである。本論文では、ステレオマッチングのための新しい反復更新オペレータである選択的リカレントユニット(SRU)を提案する。SRUモジュールは、エッジ領域と滑らかな領域に対して、複数の周波数で隠れた視差情報を適応的に融合することができる。適応的な融合を行うために、新しい文脈的空間注意(CSA)モジュールを導入し、融合重みとして注意マップを生成する。 SRUは、ネットワークが複数の周波数にわたって隠された視差情報を集約する力を与え、反復処理中に重要な隠された視差情報が失われるリスクを軽減する。SRUの普遍性を検証するために、Selective-Stereoと総称される代表的な反復ステレオマッチング手法にSRUを適用する。我々のSelective-Stereoは、KITTI 2012、KITTI 2015、ETH3D、Middleburyのリーダーボードで、発表された全ての手法の中で1位にランクされている。コードはhttps://github.com/Windsrain/Selective-Stereo。
DeepL.com(無料版)で翻訳しました。
pdf Polarimetric PatchMatch Multi-View Stereo
Global Occlusion-Aware Transformer for Robust Stereo Matching
LoS: Local Structure-guided Stereo Matching
Robust Synthetic-to-Real Transfer for Stereo Matching
github DKT-Stereo: Robust Synthetic-to-Real Transfer for Stereo Matching
ドメイン汎化ステレオマッチングネットワークの進歩により、合成データで事前に訓練されたモデルは、未知のドメインに対して強い頑健性を示す。しかし 実世界で微調整した後の頑健性を調べた研究はほとんどない。 このような場合、領域汎化能力が著しく低下する可能性がある。本論文では、ステレオマッチングネットワークを、未知の領域に対する頑健性を損なうことなく微調整することを探求する。その動機は その動機は、微調整のためのGround Truth(GT)とPseudo Label(PL)の比較にある: GTは劣化するが、PL はドメイン汎化能力を維持する。経験的に GTとPLの違いは、ファインチューニングの際にネットワークを正則化する貴重な情報を意味する。また、この違いを微調整に利用するフレームワークを提案する。このフレームワークは、凍結教師、指数移動平均(EMA)教師、Studentネットワークから構成される。核となるアイデアは、EMA教師を利用して生徒が学習したことを測定し、動的に改善することである。 GTとPLを微調整する。我々のフレームワークを 最先端のネットワークと統合し、いくつかの実世界データセットでその有効性を評価する。 いくつかの実世界データセットでその有効性を評価した。広範な実験から 本手法は、ファインチューニングの間、ドメインの汎化能力を効果的に保持することを示す。コードは以下から入手可能: https://github.com/jiaw-z/DKT-Stereo.
DeepL.com(無料版)で翻訳しました。
github IGEV-Stereo & IGEV-MVS (CVPR 2023)
pdf Iterative Geometry Encoding Volume for Stereo Matching
github [CVPR 2024] Neural Markov Random Field for Stereo Matching
pdf Neural Markov Random Field for Stereo Matching
pdf Adaptive Multi-Modal Cross-Entropy Loss for Stereo Matching
github [[CVPR 2024] Adaptive Multi-Modal Cross-Entropy Loss for Stereo Matching]
web page Cross-spectral Gated-RGB Stereo Depth Estimation
pdf Cross-spectral Gated-RGB Stereo Depth Estimation
pdf 2T-UNET: A Two-Tower UNet with Depth Clues for Robust Stereo Depth Estimation
web page Unifying Flow, Stereo and Depth Estimation
pdf Unifying Flow, Stereo and Depth Estimation
github [TPAMI'23] Unifying Flow, Stereo and Depth Estimation
Highlights
A unified dense correspondence matching formulation and model for three tasks.
Our unified model naturally enables cross-task transfer (flow → stereo, flow → depth) since the model architecture and parameters are shared across tasks.
State-of-the-art or competitive performance on 10 popular flow, stereo and depth datasets, while being simpler and more effcient in terms of model design and inference speed.
Learning Depth Estimation for Transparent and Mirror Surfaces
https://cvlab-unibo.github.io/Depth4ToM/
透明または鏡(ToM)表面の奥行きを推測することは、センサー、アルゴリズム、ディープネットワークのいずれにとっても難しい課題である。我々は、このような表面の奥行きをニューラルネットワークで適切に推定する学習のためのシンプルなパイプラインを提案する。画像中のToMオブジェクトをインペイントし、単眼深度推定モデルで処理することで、信頼性の高い擬似ラベルを得る方法を明らかにする。これらのラベルは、既存の単眼またはステレオネットワークを微調整し、ToM表面の扱い方を学習させるために使用することができる。Boosterデータセットでの実験結果は、我々の極めてシンプルな提案によって可能になった劇的な改善を示している。
3nd Monocular Depth Estimation Challenge
depthについて理解を深めるのに役立つ記事
第2章 ニューラル3次元復元
2.1 はじめに
2.2 ニューラル3次元復元のフレームワーク
2.3 エンコーダ
2.4 デコーダ
2.5 損失関数
2.6 フレームワークで分析する単眼画像からの全周3次元復元
2.7 おわりに
第3章 深層照度差ステレオ法
3.1 はじめに
3.2 照度差ステレオ法
3.3 深層照度差ステレオ法
3.4 最新の研究動向
3.5 おわりに