More than 1 year has passed since last update.

Teslaはカメラを使ってどのように世界を認識しているか？

Posted at 2022-11-14

スライドによるとSingleImage、MultiCameraでも難しく、Transformer->BEV変換するみたいです。

BEVとは、Bird eye view空間の事で、いわゆる鳥瞰図ですね。
Transformerの中でもCross-attentionという機構を用いており、これによってマルチカメラの画像情報を統合し、効率よくBEV空間のベクトルに変換することに成功してるみたいです。
こちらはTeslaの自動運転をユーザーが使っている動画です。

これに時系列情報（動き）が必要なので、SpatialRNNを使ってるみたいです。
1台の車を認識した時に、別の車の影で見えなくなっても時系列データがあれば、見えない時間も動きの予測が出来ます。
この考え方を使えば、車以外もスポーツとかに流用できそうですね。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up