0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

VoxFormer: Sparse Voxel Transformer for Camera-Based 3D Semantic Scene Completion

Last updated at Posted at 2023-06-26

1. 概要

2D画像を入力として、セマンティックセグメンテーションされた3Dボクセルを出力する新たなTransformerの研究。


2. 新規性

image.png
前段で2D画像から深度推定を行い、疎なボクセルを生成してクエリの入力にする。後段で疎なボクセルから密な3Dボクセルを生成する。2D画像に映っている各ピクセル情報は、3Dシーンでも見えているところの表現になっていることを利用し、画像特徴が得られたところから伝播させて3Dボクセルを生成することで精度を向上させている。


3. 実現方法

image.png
前段では軽量な2D-CNNを使って見えている範囲の特徴を3Dのボクセルに与えながら疎なボクセルを生成する。後段では、Masked Autoencoder(MAE)のようにマスクトークンを見えていないボクセル領域へ埋め込み、このマスクを学習させることでセマンティックセグメンテーション付きの3Dボクセルが得られる。


4. 結果

image.png
image.png
SemanticKITTIデータセットで評価したところ、シーンを補完する性能が20%向上し、セマンティックセグメンテーションの精度が18.1%向上した。また、メモリ使用量が少なく学習でのメモリは16GB以下に抑えている。


Paper URL: https://openaccess.thecvf.com/content/CVPR2023/papers/Li_VoxFormer_Sparse_Voxel_Transformer_for_Camera-Based_3D_Semantic_Scene_Completion_CVPR_2023_paper.pdf

last updates: June 21 2023

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?