0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Teslaはカメラを使ってどのように世界を認識しているか?

Posted at

スライドによるとSingleImage、MultiCameraでも難しく、Transformer->BEV変換するみたいです。

BEVとは、Bird eye view空間の事で、いわゆる鳥瞰図ですね。
Transformerの中でもCross-attentionという機構を用いており、これによってマルチカメラの画像情報を統合し、効率よくBEV空間のベクトルに変換することに成功してるみたいです。
こちらはTeslaの自動運転をユーザーが使っている動画です。

これに時系列情報(動き)が必要なので、SpatialRNNを使ってるみたいです。
1台の車を認識した時に、別の車の影で見えなくなっても時系列データがあれば、見えない時間も動きの予測が出来ます。
この考え方を使えば、車以外もスポーツとかに流用できそうですね。

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?