SECOND: Sparsely Embedded Convolutional Detection
VoxelNetとほとんど同じなSECOND。
違う点だけを見ていきたいと思う。
1. Feature Learning Network => Voxel Feature and Coordinate + Voxel Feature Extractor
2. Convolutional Middle Layers => Sparse Conv Layer
3. Region Proposal Network => Region Proposal Network
新規性
Sparse Convolutional Middle Extractor
VoxelNetではConvolutional Middle Layersと呼ばれていた、3Dを2Dに畳み込む処理。
Sparse Convolutionを採用する事で高速化。
*Sparse Convolutionの詳細は別記事で追記
Region Proposal Network
2D Object Detectionの話だから軽く流すが、Multi ResolutionでLocalとGlobalの特徴量を得られる構成にした。
Sine-Error Loss for Angle Regression
角度のlossを計算する時0とPIで同じ角度を示すのに、値としてジャンプしてしまうのでsinやcosで解決しましょうっていう、よくあるやつ。
結果
スピ-ドはSparse Convolutionalを3D=>2Dの畳み込みに採用し向上
精度は角度のlossにsinを使ったことと、2DのDetectionをMulti Resolutionにしたことによって向上
って感じかな〜。
結論
・VoxelNetを踏襲しつつ、精度も速度もシンプルな変更で上げていた。
参考文献
SECOND: Sparsely Embedded Convolutional Detection
https://pdfs.semanticscholar.org/5125/a16039cabc6320c908a4764f32596e018ad3.pdf