SAMモデルをベースにした高精度な物体追跡手法「SAMURAI」
SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory
Segment Anything Model 2(SAM 2)の物体セグメンテーション能力を活かしながら、動的な物体追跡に特化した新しいアーキテクチャ「SAMURAI」を提案した研究です。従来のSAM2では難しかった混雑な場面での追跡や遮蔽物体の追跡について、動きを考慮したメモリ管理機能を導入することで大幅な性能向上を実現しています。特筆すべきは、追加学習なしでこれらの改善を達成した点です。
背景と課題
SAM 2は優れた物体セグメンテーション性能を持ちますが、ビデオ中の物体追跡タスクでは以下のような課題がありました。
図1に示すように、SAM 2には主に2つの課題があります:
- 混雑シーンでの誤追跡
- 類似した見た目の物体が近接する場合に誤認識
- 物体の動きの情報を考慮していないため、予測が不安定
- 遮蔽時のメモリ管理の問題
- 単純に直近のフレームを記憶する方式では不十分
- 遮蔽された物体の特徴が正しく保持されない
- 誤った予測が連鎖的に伝播
提案手法
SAMURAIは以下の2つのモジュールを追加することで、これらの課題に対処します:
1. 動き予測モデル
- カルマンフィルタを用いて物体の動きを予測
- 状態ベクトル: [x, y, w, h, dx, dy, dw, dh]
- (x,y): 中心座標
- (w,h): 幅と高さ
- (dx,dy,dw,dh): それぞれの変化量
# 動きスコアと類似度スコアの統合
def select_mask(masks, motion_scores, affinity_scores):
final_score = α_kf * motion_scores + (1 - α_kf) * affinity_scores
return masks[np.argmax(final_score)]
2. モーション考慮型メモリ選択
- 3つのスコアに基づくメモリ管理
- マスク類似度スコア
- 物体存在スコア
- 動きスコア
- 全てのスコアが閾値を超えるフレームのみを記憶
実験結果
主要なベンチマークデータセットでの評価結果:
- LaSOTデータセット
- AUC: 74.2% (SAM 2比で+5.7%)
- Precision: 82.7% (SAM 2比で+6.5%)
- LaSOT_extデータセット
- AUC: 61.0% (新記録を達成)
- 特に複雑なシーンでの優位性を確認
- 処理速度
- ベースラインと同等のリアルタイム処理を維持
- 追加の計算コストは最小限
特に注目すべき点として、これらの改善が追加学習なしで達成されている点が挙げられます。
まとめと考察
SAMURAIの主な貢献は以下の点です:
- 実用性の向上
- 追加学習不要のゼロショット性能向上
- 最小限の計算コスト増加
- 改善手法
- 動き予測スコアなどの統合したスコアを導入
- メモリ管理における効率の向上
SAMURAIは、既存のSAM2モデルの能力を最大限に引き出しながら、計算コストも抑えました。より複雑なシーンでの対応が可能になったことで、実世界への応用も期待されているモデルです。
参考文献
Yang, C. Y., Huang, H. W., Chai, W., Jiang, Z., & Hwang, J. N. (2024). SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory. arXiv preprint arXiv:2411.11922v1.