1. 概要
2D画像を入力として、セマンティックセグメンテーションされた3Dボクセルを出力する新たなTransformerの研究。
2. 新規性
前段で2D画像から深度推定を行い、疎なボクセルを生成してクエリの入力にする。後段で疎なボクセルから密な3Dボクセルを生成する。2D画像に映っている各ピクセル情報は、3Dシーンでも見えているところの表現になっていることを利用し、画像特徴が得られたところから伝播させて3Dボクセルを生成することで精度を向上させている。
3. 実現方法
前段では軽量な2D-CNNを使って見えている範囲の特徴を3Dのボクセルに与えながら疎なボクセルを生成する。後段では、Masked Autoencoder(MAE)のようにマスクトークンを見えていないボクセル領域へ埋め込み、このマスクを学習させることでセマンティックセグメンテーション付きの3Dボクセルが得られる。
4. 結果
SemanticKITTIデータセットで評価したところ、シーンを補完する性能が20%向上し、セマンティックセグメンテーションの精度が18.1%向上した。また、メモリ使用量が少なく学習でのメモリは16GB以下に抑えている。
last updates: June 21 2023