1. 概要
画像とテキストの異なるモダリティ間で検索を行うクロスモーダル検索は、画像とテキスト固有のあいまいさがあるため難しいタスクの一つとして知られる。従来手法として画像とテキストの特徴を高次元でペアで紐づけるセットベースの方法が提案されているが、異なるモダリティの特徴をうまく紐づけることは難しく、複数のペアに紐づいてしまったりほとんどペアにならなかったりした。この研究では、新たなセットベース手法を提案して従来の課題を解決した。
2. 新規性
新たにSmooth-Chamfer類似度というメトリックを導入しており従来手法の高次元空間での類似度マッチングよりも異なるモダリティの特徴をマッチングできるようにしている。またスロットアテンション(Slot-attention)を用いて、異なる意味の表現を持つ要素を集め、多様な情報を抽出できるようにした。
3. 実現方法
画像と言語からそれぞれ高次元特徴を抽出し、ペアとなる特徴量を推定する(青枠: Set-prediction module)。ここで、スロットアテンションを用いて各スロットがより多様な特徴を集めるよう競い合うことで異なる意味の表現をエンコードできるようにしている。次に、Smooth-Chamfer類似度を用いて特徴量のペアをマッチングしていく(橙枠: Smooth-Chamfer similarity)。従来手法と比べて、特徴空間が疎になりすぎたり密になりすぎたりせず、異なるモダリティの表現をうまくマッピングできるようにしている。
4. 結果
COCOデータセットやFlickr30Kデータセットを使って評価しており、既存手法よりも少ない演算量で高精度に予測できることを示し、性能記録を更新している。
last updates: July 11 2023