3DSSD: Point-based 3D Single Stage Object Detector
従来の研究ではFeature Propagation(点群から特徴量を取り出すネットワーク pointnet++など)、と2stageのrefinementが全体の半分以上の計算時間を使っているとした。だから2つのModuleを取り除き1st stageの高速のネットワークを提案するのがこの論文の趣旨。
アルゴリズム
BackBone
1. Pointをsamplingする 2. 選ばれなかったpointは選ばれたpointの中から一番近い物にGroupingする 3. MLPでGroupingされたPointの特徴を学習する 4. Max PoolでGroup全体のpointの特徴を抽出 5. 何回か1~4をくり返すF-FPS(Feature-Farthest Point Samping)とD-FPS(Distance-Farthest Point Samping)の組み合わせPoint選択
 F-FPS)はSemantic infomationの距離でpointをサンプリングするので、車であれば窓やタイヤフレームなどは3次元空間的には近くにあるが、Semantic infomation的には遠いので多様なpointがsamplingできる。しかし、同じ種類の違う物体(ex 2人の人)のFeatureが近くなってしまい、F-FPSだけだと片方のpointしかsamplingされない可能性がある。 そこでD-FPSと組み合わせることで、Euclidian Disatanceで別の物と認識する事が出来る。Candidate Generation Layer
- F-FPSでsamplingしたpointの特徴量から物体の中心のshift(x,y,z)を推定する。
- F-FPSでsamplingしたpointのXYZをshiftさせる
- D-FPSでsamplingしたpointとF-FPSでsamplingしたpointを、2でshiftさせたpointから距離の近い点にGroupingする。(ここでGroupがNm/2個出来る)
- MLPでGroupの特徴を学習する
- Max PoolでGroup全体のpointの特徴を抽出(Nm/2個のGroupがそれぞれCm個の特徴量を持つ)