PointPillars: Fast Encoders for Object Detection from Point Clouds
![image.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/482094/60987e9b-2f42-da21-0780-fb20a3e2def5.png)以前のVoxelNetとの違いは空間をVoxelとして捉えるのではなく、Pillarとして捉えた事!
それにより大幅に高速化された。
アルゴリズム
入力(Pointcloud to Stacked Pillar)
以下の9つの特徴からなる x,y,z,r =>pointの位置と反射強度 xc,yc,zc=>pillar内のPointの平均値からの距離 xp,yp => pillarの中心位置からのoffsetこれにより、tensor sizeは、size(D,P,N)となる
D x P x N = 単点が保有する次元数(9) x 点の存在するpillarの数 x pillarに存在する点の数
特徴量学習(Stacked Pillar to Learned Feature)
PointNetで(D(9つの特徴),P,N)を(C,P,N)の特徴量を学習する 各Pillar内でChannel-wiseに最大の値を取ると、(C,P)が得られるshape変換(Learned Feature to Pseudo Image)
Pillarを元のHeightとwidthに戻すと(C,H,W)のPseudo Imageが得られる。*3Dの高さの情報はチャネルに畳み込まれてしまいました
Backbone
2D DetectionのBackbone(特徴を抽出するModule)と同じDetection Head
2D DetectionのSSDのHead(得られた特徴から最終的なDetectionを行うModule)を使用結果
![image.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/482094/35f0552c-dff1-989b-bb2f-b1ca1ce14b0f.png) 精度はSECONDよりちょい良いくらいだが、Speedは3倍程度速い!*Speedに関してDetectionのエリアを絞っているので注意