More than 5 years have passed since last update.

アンカーを用いない物体検出器CornerNetについてざっくり説明してみる

Posted at 2020-06-05

紹介する論文

CornerNet: Detecting Objects as Paired Keypoints

ECCV 2018で発表されているようです

あ、基本的には僕の解釈なのでところどころ間違っているところがあるかもしれません

指摘している問題点

faster RCNNやSSD、YOLOは、「事前に決められたアンカー」があり、アンカー内の「クラス」や「アンカーと実際のバウンディングボックスに関する回帰」を行っている

つまり割とアンカー依存な部分があるのではって疑問

①anchor数が増えていく
DSSDでは40k以上、RetinaNetは100k以上のアンカーが用いられている。
単純な話「アンカー増やせばアンカーに正解bboxがハマりやすいから精度あがるやん？」

さらにアンカー増やすとnegative anchorが増えて学習速度が落ちるという問題もある

②anchorのハイパーパラメータ多い
・いくつのbboxか
・どんなサイズか
・どんなアスペクト比か
この設計は手間がかかるし、複雑で面倒である。

アンカーの使わない物体検出器は作れないのか？

というのがモチベーションです。

大体の構造

１番の特徴は、bbox座標や大きさなどを回帰しないこと。
では何をしているかというと、入力画像の左上の座標の確率、右上の座標の確率のヒートマップを出力する。全結合層を用いた回帰を行ってない

出力

基本の出力は３つ。
・座標の位置に関するヒートマップ(左上と右下それぞれ)
・同一クラスの物体をわけるエンベディング
・特徴抽出による解像度を戻すオフセットの出力

それぞれざっくりみてみます

ヒートマップ生成

正解バウンディングボックスの左上の座標は本来「点」であるため、予測するにはあまりにシビア
そこで、ガウシアンフィルタをかけて少し大きくします

あとはこのヒートマップをhourglassNetworkというencoder-decoder型ネットワークで予測させてあげるだけです。

損失関数はfocal lossを採用しています。

オフセット

ざっくりって観点でいえばそこまで重要ではないんですが、
特徴抽出をすると、解像度が落ちるので元の画像における正確な座標を回帰で求めています

エンベディング

出力ヒートマップはクラス毎に作成されます。
そのため、一枚の画像から、同じクラスの物体が複数あった場合に、コーナーの点が複数でてきます。
例えば、人間が２人いる画像では、「人間クラスの出力ヒートマップ」には２つの左上の点が検出されます。

このあと、左上の点と右下の点の組み合わせを作って、バウンディングボックスとします。このときにどの左上とどの右下の組み合わせがペアがはっきりしません。
そこでエンベディングを用いて同じく組み合わせになる特徴量が類似するようなロスを掛け合わせます。
これにより組み合わせが簡単に見つけられるようになります。
Lpullは同じもの組み合わせの２点の特徴量を似たものにします
Lpushは違う組み合わせの２点の特徴量を異なったものにする性質を持ちます。

損失関数

検出ロス、エンベディングの2つのロス、オフセットのロスを組み合わせたものです。

corner pooling

「この左上の点と右下の点を予測する」という手法は、根本的に、そのクラスがないところを予測することが多いです。バウンディングボックスの端を予測するためですが、予測すべき点にそのクラスの情報がないというのは問題に思えます。
そこでcorner poolingという新しいpooling手法を用いています。