近年、RGBD画像が取得できるセンサが増えてきているので、セグメンテーションもRGBD画像で行なった方が、格段に精度を改善しやすいと予想する。
そこで、RGBD画像を用いたセグメンテーションについて調査中である。
Paper with code での状況
The papers related to metrics used mainly in RGBD semantic segmentation are as follows.
[PixAcc] Pixel accuracy
[mAcc] Mean accuracy
[mIoU] Mean intersection over union
[f.w.IOU] Frequency weighted IOU
引用元: 末尾に示したリンク先
上記の4つの値が、学習結果の精度を評価する指標である。
気にするポイント
- 入力:RGBD画像の大きさ
- 処理時間:
- 入力画像フォーマット:
- 色画像の部分が、センサによってはYUVなどの場合がある。
- RGBよりはYUVの方がセグメンテーションが楽な場合がある。
- ただ、学習がどのように訓練されているかに依存する。
Github https://github.com/TUI-NICR/ESANet
Our carefully designed network architecture enables real-time semantic segmentation on a NVIDIA Jetson AGX Xavier and, thus, is well suited as a common initial processing step in a complex system for real-time scene analysis on mobile robots:
どのようなデータセットで学習されているのかが記載されている。
We timed the inference on a NVIDIA Jetson AGX Xavier with Jetpack 4.4 (TensorRT 7.1.3, PyTorch 1.4.0).
Jetson AGX Xavier での計測がされている。
Youtube Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis
pdf Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis
SUN RGB-D: A RGB-D Scene Understanding Benchmark Suite
Intel RealSense 3D Camera for
tablets, Asus Xtion LIVE PRO for laptops, and Microsoft
Kinect versions 1 and 2 for desktop.
上記の4種類のDEPTHセンサを用いている。
NYU Depth Dataset V2
参照記事 RGBD semantic segmentation
A paper list of RGBD semantic segmentation.
DFormer
github DFormer: Rethinking RGBD Representation Learning for Semantic Segmentation ICLR 2024
pdf