R-CNNで使われている、Selective Searchについてどうやってpixelをclusteringしてるのか気になったのでまとめてみた。
Selective Searchとは
 類似した特徴を持ったpixelをクラスタングする事で、物体のpixelが分かる。 R-CNNなどではクラスタリングしたpixelの最小のBounding Boxを描くことで物体エリアを提示する。特徴量
-
Texture Similarity
SIFT(Scale Invariant Feature Transform) -
size Similarity
一つのclusterが大きくなりすぎないように、小さい物体ほどSimilarityを高く設定する。Similarityというより (1-cost)のイメージ
両方のclusterのサイズが1pixelであればSimilarityはほぼ1になる
両方のclusterのサイズの合計が大きい場合、Similarityは0に近づく -
Fitness Feature
Sfill = 1 - 2つのclusterの間にどれだけのスペースがあるか
2つのClusterが隣接していればSimilarityは1に近づき
2つのClusterが離れていればSimilarityは0に近づく
最終的なSimilarity Scoreは重み付けした合計値で求める