画像セグメンテーションについて調査中

Last updated at 2025-03-08Posted at 2023-12-22

Segmantation Anything 2を見てください。

https://github.com/facebookresearch/segment-anything-2
の実装が、いままでの実装の多くを無意味にしています。
まずは、segment-anything-2を見てください。
物体のtracking のタスクも、segment-anything-2が使える場合には、それで十分になってきているかもしれません。（ここまで2024年8月追記）

ライブラリを調査するためのアドバイス
・よく使われているカメラの場合には、そのカメラでの利用例が開発元あるいは第３者によって公開されていることが多い。
　それをまず調査する。
・画像認識関係の場合だと、組み込み対象のデバイスの開発元（例：NVIDIA)がさまざまなアプリケーションを提供している。
　それらに利用したいライブラリが紹介されていることがある。
・推論エンジンに提供されているmodel zooにある学習済みのモデルとアルゴリズムを調べてみよう。
　例：OpenVino
・機械学習分野のフレームワークでの状況を調査する。

segmentation の種類

引用元

semantic segmentation
instance segmentation
panoptic segmentation

paper with code

Paper with code のサイトでは、それぞれのタスクに対してSotAのアルゴリズムを紹介している。

気にするポイント

セグメンテーションの分類
例：MS COCOの80カテゴリ
例：Cityscapes Datasetのカテゴリ
例：走行可能範囲のセグメンテーション
あなたの実現したいセグメンテーションは何ですか。
セグメンテーションの実行時間
セグメンテーションの解像度
セグメンテーションの精度
学習のしやすいさ

通常カメラでのセグメンテーション

Yolov8

https://docs.ultralytics.com/ja/
https://github.com/ultralytics/ultralytics

Yolov8では、物体検出の他にインスタンスセグメンテーションが追加になっている。
MS-COCO の８０カテゴリの検出とインスタンスセグメンテーションとができる。

Youtube YOLOv8 COMPLETE Tutorial | Object Detection | Segmentation | Classification

引用元

StereoLabs ZED

How to Use YOLO v8 with ZED in Python

ZED のカメラを使ってYolov8を動作させるためのインスール手続きとかが書かれている。

StereoLabs ZED SDK Image segmentation using yolov8 with zed 2i python

セグメンテーション後のマスクを取得する部分には、さらに調査が必要そうだ。

Yololv8のセグメンテーションには、ZED-SDK のbindingがある。
https://github.com/stereolabs/zed-sdk/tree/master/object%20detection/custom%20detector/python/pytorch_yolov8_seg

そのため、ZED2iのカメラがあれば、YOLOV8でのセグメンテーションを動作させることができる。

StereoLabs Mask R-CNN How to Use PyTorch with ZED

引用元

なお、Mask R-CNN は、画像に存在する物体のクラス名を特定する一般物体検出と、画像内のピクセル単位でクラス分けを行うインスタンスセグメンテーションを同時に行う手法です。

3D Mask R-CNN using the ZED and Pytorch

NVIDIA

引用元

Youtube NVIDIA Jetson AI Fundamentals - S3E6 - Semantic Segmentation

NVIDIA BI3D を使用したステレオ入力における近接セグメンテーション

「私たちは、DNN の推論に TensorRT を DLA で使用しており、GPU とは異なるハードウェアの多様性を提供し、フォールトトレランスを向上させつつ、他のタスクを GPU からオフロードしています。DLA は Jetson AGX Orin で BI3D に対して約 46fps を提供し、3 つの DNN で構成され、ロボティクスアプリケーションにおいて 30ms 未満の低レイテンシを提供しています。」と NVIDIA のロボティクスプラットフォームソフトウェアの副社長である Gordon Grigor は述べています。

衝突を防止するためには、フレームレートを高くする必要があります。
しかも、ハードウェアの余力を奪わない実装が必要になります。
NVIDIAのJetson AGX OrinのもつDLA(Deep Learning Accelerator) を利用することは、GPUの余力を確保することにつながります。

Github BI3D

Bi3D: Stereo Depth Estimation via Binary Classifications
Abhishek Badki, Alejandro Troccoli, Kihwan Kim, Jan Kautz, Pradeep Sen, and Orazio Gallo
IEEE CVPR 2020