E資格用語の備忘録
シラバス2024 4.深層学習の応用 (2)物体検出 ⅰ.FasterR-CNN, MaskR-CNN
Bounding Box
物体検出の結果として物体の位置や範囲を示す四角形の枠を指す。
コーナー2点による表現と、中心点と幅・高さを使う表現の2種類がある。
mAP (mean Average Precision)
物体検出や画像分類などのタスクの性能を評価する指標の一つで、クラス単位の平均適合率(Average Precision)の全クラスでの平均(mean)を表す。
mAPcocoは、IoUが0.5~0.95までのmAPを平均したもの。
ROI (Region of Interest)
ROIは、画像処理や物体検出において、特定の目的やタスクに関連する重要な部分を示す関心領域のこと。
ROIはBounding Boxで表される。
end-to-end
システムやアルゴリズムが入力から出力までを一連の処理として直接扱うことを指す。
2ステージ検出
物体検出のアプローチの一つで、領域提案(候補領域の検出)と物体検出(クラス推定)を別々のステージで行う。R-CNN、SPPNet、Fast R-CNN、Faster R-CNN、RFCN、FPN、Mask R-CNNなどがある。精度高いが推論が遅い傾向。
1ステージ検出は、DetectorNet、SSD、YOLO、RetinaNet、CornerNetなどがある。精度低いが推論が早い傾向。
Selective Search
領域提案の手法の一つで、物体検出のための候補領域を生成する教師なしアルゴリズム。(ディープラーニングでない)
R-CNNやFastで使用される。
計算コストが高く、パフォーマンスに影響を与えるため、Fast R-CNNの後継であるFaster R-CNNでは、より効率的なRegion Proposal Network (RPN)が導入された。
Fast R-CNN
R-CNNの複雑な処理(関心領域ごとに畳み込み層へ通す)をやめ、画像ごとに一回の畳み込み操作を行うことで、計算量を大幅に削減した高速なアプローチ。
Region Proposal Network (RPN)
ディープラーニングを用いた物体検出のアルゴリズムの一部であり、領域提案を生成するためのニューラルネットワーク。
Faster R-CNNで導入される。Mask R-CNNでも使用。
Selective Searchに比べて計算効率、学習の柔軟性、ディープラーニングの利用という点で優れている。
Anchor box
各アンカーから基準の長さと縦横比をそれぞれ決めることで、複数のアンカーボックスを作り出す。
アンカーボックスは一つのアンカーに対して複数作られ、それぞれのアンカーボックスが物体を含むかどうかを推測する。
アンカー
Anchorは、RPNにおける物体検出の基本的な要素であり、物体の位置と形状の初期推定を行う。
特徴マップ上にあり、これから描く矩形の中心の役割を果たす。
ROI Pooling
畳み込み処理後の特徴マップから、異なるサイズのRoIを固定サイズの特徴マップに変換する。
後段の全結合層や分類層など固定サイズの入力を必要とするネットワークが統一された入力を受け取ることができ、物体検出の精度と効率性が向上する。
Faster R-CNNなどで導入される。
ROI Align
ROI Poolingの改良版で、情報の欠落や位置合わせの誤差が生じる可能性を少なくする。
ピクセルレベルの補間を使用して、より正確な特徴の抽出と、特に小さなRoIや高解像度の画像での位置合わせの精度向上が実現。
Mask R-CNNなどのモデルで一般的に使用され、物体検出やセグメンテーションのタスクの精度とロバスト性の向上に貢献しています。
インスタンスセグメンテーション
インスタンスセグメンテーションは、画像内の個々のオブジェクトをピクセル単位で識別し、それぞれに対してユニークな識別子を割り当てるタスク。
クラス単位でしか区別するセマンティックセグメンテーションと異なり、同じクラスでも個々の物体を区別することができる。
Mask R-CNN、YOLACT、DeepMask、PANetなどがある。