More than 1 year has passed since last update.

Improving Cross-Modal Retrieval With Set of Diverse Embeddings

Posted at 2023-07-19

1. 概要

画像とテキストの異なるモダリティ間で検索を行うクロスモーダル検索は、画像とテキスト固有のあいまいさがあるため難しいタスクの一つとして知られる。従来手法として画像とテキストの特徴を高次元でペアで紐づけるセットベースの方法が提案されているが、異なるモダリティの特徴をうまく紐づけることは難しく、複数のペアに紐づいてしまったりほとんどペアにならなかったりした。この研究では、新たなセットベース手法を提案して従来の課題を解決した。

2. 新規性

新たにSmooth-Chamfer類似度というメトリックを導入しており従来手法の高次元空間での類似度マッチングよりも異なるモダリティの特徴をマッチングできるようにしている。またスロットアテンション(Slot-attention)を用いて、異なる意味の表現を持つ要素を集め、多様な情報を抽出できるようにした。

3. 実現方法

画像と言語からそれぞれ高次元特徴を抽出し、ペアとなる特徴量を推定する(青枠: Set-prediction module)。ここで、スロットアテンションを用いて各スロットがより多様な特徴を集めるよう競い合うことで異なる意味の表現をエンコードできるようにしている。次に、Smooth-Chamfer類似度を用いて特徴量のペアをマッチングしていく(橙枠: Smooth-Chamfer similarity)。従来手法と比べて、特徴空間が疎になりすぎたり密になりすぎたりせず、異なるモダリティの表現をうまくマッピングできるようにしている。

4. 結果

COCOデータセットやFlickr30Kデータセットを使って評価しており、既存手法よりも少ない演算量で高精度に予測できることを示し、性能記録を更新している。

Paper URL: https://openaccess.thecvf.com/content/CVPR2023/papers/Kim_Improving_Cross-Modal_Retrieval_With_Set_of_Diverse_Embeddings_CVPR_2023_paper.pdf

last updates: July 11 2023

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up