スライドによるとSingleImage、MultiCameraでも難しく、Transformer->BEV変換するみたいです。
BEVとは、Bird eye view空間の事で、いわゆる鳥瞰図ですね。
Transformerの中でもCross-attentionという機構を用いており、これによってマルチカメラの画像情報を統合し、効率よくBEV空間のベクトルに変換することに成功してるみたいです。
こちらはTeslaの自動運転をユーザーが使っている動画です。
これに時系列情報(動き)が必要なので、SpatialRNNを使ってるみたいです。
1台の車を認識した時に、別の車の影で見えなくなっても時系列データがあれば、見えない時間も動きの予測が出来ます。
この考え方を使えば、車以外もスポーツとかに流用できそうですね。