はじめに
今回選んだ論文は Siamese Network(シャムネットワーク)を使用した物体追跡です。Siamese Network 自体は非常にシンプルなネットワークとなっています。本論文は2016年発表されました。
Siamese Network
本論文での提案手法である Siamese Network は以下の図になります。このアーキテクチャで行っていることは検索対象が写っている画像($z$)を検索画像($x$)から探します。二つの画像の相互相関から類似度が高い領域をスコアで出力します。検索方法は一つ前のフレームに写っていた場所を中心に検索します。
トレーニング
学習する際には検索対象となる画像と検索する画像をペアにして学習します。画像は検索画像を対象画像よりも大きくさせて学習させます。
実験結果
データセットは ILSVRC を使用しています。モデルはゼロから訓練を行った本論文の提案手法である Siamese Network を使用した結果になります。本手法ではモデルの更新(オンライン学習)を実行しない。それは、検索対象画像($z$)を最初のフレームのみ検索して使用しているからです。単純なアルゴリズムであるのにかかわらず、不鮮明な画像(2段目)、外観の大幅の変化(1,3,4段目)、低照度(6段目)、スケール変更(6段目)など、多くの困難な状況に対しても検出が可能です。一方で混みったシーンには敏感です(5段目)。