WALT: Watch And Learn 2D amodal representation from Time-lapse imagery
概要
- 物体の遮蔽状況下で精度の高い検出とセグメンテーションできる手法を提案
- 人がいない背景画像に対して、人や車を貼り付けてセグメンテーションする
- 人がいない画像は、固定カメラで撮影したタイムラプス画像を使用し、全てのピクセルに対して中央値を取ることで作成する
- 同様にタイムラプス画像を使って、遮蔽がない物体を自動的に収集し、合成的に遮蔽データを作成する
人によるアノテーションが不要
人間が作成するよりも安定して正確な遮蔽データセットが作れる
従来手法との比較
従来の物体検出やセグメンテーション手法は、遮蔽が発生する場面での性能が低下しやすいという問題があった。特に、COCOやImageNetのような大規模データセットでも、遮蔽された物体のラベル付けが十分に行われておらず、その結果、遮蔽に対するロバスト性が学習されにくいという課題が存在した。また、合成データを用いた手法では、リアルなデータとのドメインギャップが問題となり、現実のシナリオに適用する際の精度が低下していた。
新規性
WALTの新規性は、長期間にわたる固定カメラのタイムラプス画像を利用して、遮蔽が発生しない物体を自動的に収集し、これを用いて遮蔽シナリオを合成的に生成する点にある。この手法により、リアルなデータに近い形で大量の遮蔽データを生成することが可能となり、遮蔽に対するロバスト性を大幅に向上させることができる。また、時間をかけて収集された無遮蔽の物体データを利用することで、遮蔽された物体の学習を効率化し、短期間での学習が可能となっている。
方法論
-
無遮蔽物体の収集: 固定カメラのタイムラプス画像から、長期間にわたり無遮蔽の物体を検出・収集する
図のように物体検出したBBoxの底辺が他のBBoxと重なっているものは遮蔽されている物体で、底辺以外が重なっているもの・どのBBoxとも重なっていないものは遮蔽されていない物体として認識.物体の画像を収集する. -
合成的な遮蔽シナリオの生成: 収集された無遮蔽の物体を用いて、同じシーン内で重ね合わせることで、現実に近い形の遮蔽シナリオを生成する。この合成データは、ディープラーニングネットワークのトレーニングに利用される
-
Amodalセグメンテーションの学習: 合成データを用いて、物体の遮蔽状況下でも正確に検出・セグメンテーションができるAmodalネットワークを学習する。これにより、物体の全体的な表現を学習し、遮蔽が発生している場合でも正確なセグメンテーションが可能となる
結果と評価
この手法を用いることで、歩行者や車両の検出・セグメンテーション精度が大幅に向上し、遮蔽が増加しても性能の低下が緩やかであることが確認された。特に、遮蔽が発生する場面でのトラッキング性能が向上し、実際の交通監視などのアプリケーションでの有用性が示された。
比較画像を確認.確かに従来手法が2人の人間を1人と見なしていたり、オクルージョンを境目に1台の車を2台と判断するケースが合う一方で、WALTは正しく判断できている.
結論
WALTは、固定カメラからのタイムラプス画像を利用して、物体の遮蔽状況下でも高精度な検出・セグメンテーションを実現する新しい手法を提案している.
この手法により、従来の手法では難しかった遮蔽に対するロバスト性を大幅に向上させることができる。今後は、この手法を自動運転などの新しい応用分野に展開することが期待される.