Expandable YOLO: 3D Object Detection from RGB-D Images*
入力がRGB-Dの4channelのImageで出力が(conf,x,y,z,w,h,d)の7channel
・入力のRGB-DにはRealsenseを使っていた。StereoでDepthを推定しても動く。
・出力に何故かOrientationがない
・44.4FPSという恐ろしい速さ
結論
・3次元展開していないDepth Mapを使ったシステムだと恐らく精度はそんなに良くは出ないだろう。
・2Dに落とし込んだことで速い。
参考文献
Expandable YOLO: 3D Object Detection from RGB-D Images*
https://arxiv.org/pdf/2006.14837v1.pdf