1. 概要
動画の中から動きのある対象を正確に追いかける技術をトラッキングという。動画中のフレーム毎に動画内の物体がどこへ移動したかを推定し、またカメラの動きやブレなども考慮しないと精密にトラッキングすることができない。従来手法では、動画内の動作理解をするために時間的な制約やオクルージョン(物体が他の物体に隠れてしまうこと)に対処するのが難しいという課題があった。
この研究では、ビデオシーケンス全体を考慮に入れて、すべてのピクセルに対する正確な動きの推定を可能にする、OmniMotionを提案している。
*BEST STUDENT AWARD
2. 新規性
空間的に連続性のある特徴量を使って、尺の長い動画に対してもトラッキングができる手法を提案した。従来はオプティカルフローや特徴追跡の手法が用いられたが、オプティカルフローは計算時間が膨大で短い尺の動画しか適用できず、特徴追跡は動画内の空間でスパース(疎)な点のみを用いていたため誤検知が多かった。
3. 実現方法
動画内の物体やシーンを3D空間内でモデル化し、トラッキングに利用するための3次元座標系のことを"canonical volume"という。提案手法では、動画を3次元ボリューム(canonical 3D volume)で表現し、ローカル空間と標準空間との間でピクセル毎にトラッキングを行う。特に、3D空間で表現することで動画内の動きや位置関係をモデル化することができ、動きのある各要素を正確にトラッキングできるようになった。これにより、全フレームを通じてオクルージョンに頑健で、カメラと物体の動きの複雑な組み合わせをモデル化することに成功している。
4. 結果
既存手法と比べて、動画内の動きのある物体をカメラの動作まで考慮しながら全フレームについて正確にトラッキングできるようになった。対象が見えないオクルージョンの有るシーンでも頑健に位置を予測でき、また対象までの距離を深度マップで推定することも可能。
last updates: Oct 8 2023