WALT3D: Generating Realistic Training Data from Time-Lapse Imagery for Reconstructing Dynamic Objects under Occlusion
CVPR 2024 (Oral, Top 0.8%)
論文
project page
github
概要
WALT3Dは、固定カメラからのタイムラプス画像を利用して、遮蔽された状況下でも動的な物体の検出やセグメンテーションを高精度に行う新しい手法を提案している.
従来の手法では、都市環境などで頻繁に発生する遮蔽に対して十分な対応ができていなかったが、この研究では、リアルなデータと合成データの双方の利点を活かし、固定カメラで長期間撮影されたタイムラプス画像を利用することで、遮蔽が発生しない物体を自動的に収集し、これを用いて合成的に遮蔽シナリオを生成する手法を開発.
従来手法との比較
従来の物体検出やセグメンテーション手法は、遮蔽が発生する場面での性能が低下しやすいという問題があった.特に、COCOやImageNetのような大規模データセットでも、遮蔽された物体のラベル付けが十分に行われておらず、その結果、遮蔽に対するロバスト性が学習されにくいという課題が存在した.
また、合成データを用いた手法では、リアルなデータとのドメインギャップが問題となり、現実のシナリオに適用する際の精度が低下していた.
新規性
WALT3Dの新規性は、長期間にわたる固定カメラのタイムラプス画像を利用して、遮蔽が発生しない物体を自動的に収集し、これを用いて遮蔽シナリオを合成的に生成する点にある.この手法により、リアルなデータに近い形で大量の遮蔽データを生成することが可能となり、遮蔽に対するロバスト性を大幅に向上させることができる.また、時間をかけて収集された無遮蔽の物体データを利用することで、遮蔽された物体の学習を効率化し、短期間での学習が可能となっている
WALT2Dからの進化点
1. 3Dベースの合成手法
WALT2Dでは2D画像の合成によって遮蔽シナリオを生成していたが、WALT3Dでは3Dベースの合成手法を導入している.遮蔽の配置がより現実的になり、学習データの品質が向上している.
2. 無遮蔽物体の再構築
WALT3Dでは、タイムラプス画像から無遮蔽の物体を自動的に検出し、その3D形状と姿勢を再構築する.このプロセスは、カメラの内部パラメータと地面平面を利用して行われ、物理的に妥当な再構築が可能となっている.
3. Pseudo-groundtruthの生成
WALT3Dでは、既存のオフ・ザ・シェルフ手法を利用して生成された3D形状や姿勢、セグメンテーション、キーポイントなどをpseudo-groundtruthとして使用している.これにより、大量のラベル付きデータを生成することができ、人手によるアノテーションの必要性を大幅に削減している.
4. 高品質な訓練データの生成
WALT3Dのアプローチにより、訓練データの質が向上している.物理的に正確な遮蔽配置が可能となったことで、訓練データが現実のシナリオにより近くなり、モデルの学習効率が向上している.WALT2Dでは、このような高品質な訓練データの生成は難しかった.
5. データ効率の向上
WALT3Dは、同じ量の訓練データであっても、より高い性能を引き出すことができる.WALT2Dと比較して、WALT3Dを使用することで、少ないデータ量でも高いパフォーマンスが得られる.
方法論
- 無遮蔽物体の収集: 固定カメラのタイムラプス画像から、長期間にわたり無遮蔽の物体を検出・収集する.これは、同じ地平面上にある物体が互いに遮蔽する際のバウンディングボックスの重なりを利用して行われる
- 合成的な遮蔽シナリオの生成: 収集された無遮蔽の物体を用いて、同じシーン内で重ね合わせることで、現実に近い形の遮蔽シナリオを生成する.この合成データは、ディープラーニングネットワークのトレーニングに利用される
- Amodalセグメンテーションの学習: 合成データを用いて、物体の遮蔽状況下でも正確に検出・セグメンテーションができるAmodalネットワークを学習する.これにより、物体の全体的な表現を学習し、遮蔽が発生している場合でも正確なセグメンテーションが可能となる
結果と評価
この手法を用いることで、歩行者や車両の検出・セグメンテーション精度が大幅に向上し、遮蔽が増加しても性能の低下が緩やかであることが確認された.特に、遮蔽が発生する場面でのトラッキング性能が向上し、実際の交通監視などのアプリケーションでの有用性が示された
従来手法(WALT 2D)では不自然な合成画像が生じていたが、奥行き方向の情報も加味することでより自然な画像を作成することに成功!
結論
WALT3Dは、固定カメラからのタイムラプス画像を利用して、物体の遮蔽状況下でも高精度な検出・セグメンテーションを実現する新しい手法を提案している.この手法により、従来の手法では難しかった遮蔽に対するロバスト性を大幅に向上させることができる.今後は、この手法を自動運転などの新しい応用分野に展開することが期待される