Reverse Attention for Salient Object Detection(Shuhan, 2019)
コンパクト性を意識したモデルを取り上げる。注視マップを生成するというよりも注目するべきオブジェクトを抽出するモデル。
概要
この論文では、深層学習技術の急速な発展により、顕著物体検出が進展している。しかし、埋め込みデバイスでの利用を妨げる低解像度と重いモデルの課題が残る。著者は、高精度かつコンパクトな深層ネットワークを提案し、逆注視を使用して顕著性物体検出を効率的に行う方法を示している。提案手法は、簡潔さ、効率性(45 FPS)、モデルサイズ(81 MB)の面で他の手法に優れていることが実験で示されている。
提案手法
提案されたネットワークは、深い層で高レベルの意味情報を、浅い層で詳細な情報を取り込むために逆注意を使用し、残差学習を組み合わせて、効果的な物体検出を実現しています。VGG-16をバックボーンに持ち、提案されたネットワークのアーキテクチャはHEDに基づいています。逆アテンションは、上位からの消去を利用して物体領域を段階的に拡張し、提案された手法の効果的な性能を示しています。
逆アテンションを使用して物体の境界近くの空間的な詳細を捉え、視覚的な改良を達成します。深い監視が各サイド出力ステージに適用され、逆アテンションは深い層の確信度予測を消去し、ネットワークに不足しているオブジェクト領域と詳細を効果的に探索させます。他のネットワークとの違いには、逆アテンションネットワークやサイド出力残差ネットワークなどがあり、提案手法はこれらと異なる方法で逆アテンションを使用します。
結果
逆アテンションを用いた新しいアプローチを提案し、これにより顕著物体検出の性能が大幅に向上した。他の既存手法との比較では、提案手法が優れたF-measureとMAEスコアを示し、視覚的品質と効率の両面で優れていることが確認された。将来の研究では、手作業の顕著性事前情報とスクラッチからの学習を組み合わせ、ネットワークの冗長性を解消する方針が検討される。
結論
この論文では、逆アテンションを用いた新しいアプローチを提案し、これにより顕著物体検出の性能が大幅に向上した。他の既存手法との比較では、提案手法が優れたF-measureとMAEスコアを示し、視覚的品質と効率の両面で優れていることが確認された。将来の研究では、手作業の顕著性事前情報とスクラッチからの学習を組み合わせ、ネットワークの冗長性を解消する方針が検討される。