LoginSignup
0
0

論文メモ:ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT

Posted at

この論文を読んだ理由

読んだところ

  • 全体

解いている課題

  • 大規模言語モデルを用いた情報検索を高速に行う.
    BERTによる検索は高精度だが遅い

提案手法のアプローチ

アーキテクチャ

image.png

  • Representation-based Similarity...ドキュメントのembeddingを用いて類似度を計算

  • Query-Document Interaction...クエリとドキュメントにおいて,トークンごとに関連度を計算する,その後CNNやMLPを適用する

  • All-to-all Interaction...クエリとドキュメントをくっつけて,BERTに入力し類似度を得る.この方法では,クエリとドキュメントの全てのペアに対して処理を行う必要があり計算コストが非常に高い

  • Late Interaction(ColBERTで用いる手法)...別々にBERTに入力し,トークン単位で類似度を計算する(これによって,BERTとは異なり事前にドキュメントのembeddingを計算しておける).その後,最も類似度が高いトークンとのスコアを使用する(MaxSimと名付けている)ことで,より高精度に検索ができる.

    image.png

テクニック

  • クエリ拡張(query augmentation)
    クエリに[mask]を付けることで,新たな用語でクエリが拡張されることを期待している.
    例:"I drink a cup of coffee . [mask] [mask]"を入力して,[mask]のところにエスプレッソやカフェオレなどの単語を予測して,良い感じのembeddingを出力してくれる.→情報検索に有効

  • 記憶領域の削減

    • embeddingを複数のベクトルに分割してエンコード
    • float32→float16

実験結果

  • 精度はBERT並みで.計算量は,1000件の文書について検索する場合で13900分の1(大幅な効率化)
    スクリーンショット 2024-04-15 20.52.53.png

実装

公式実装:ColBERT

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0