情報検索のための大規模言語モデル:サーベイ
この記事は、以下のサーベイ論文の要点をまとめたものです。
Large Language Models for Information Retrieval: A Survey
(情報検索のための大規模言語モデル:サーベイ)
Yutao Zhu, Huaying Yuan, Shuting Wang, Jiongnan Liu, Wenhan Liu, Chenlong Deng, Zhicheng Dou, Ji-Rong Wen
Cite as: arXiv:2308.07107v2 [cs.CL] for this version
https://arxiv.org/abs/2308.07107
イントロダクションやまとめにあるように、大規模言語モデル(LLMs)の活用によって情報検索(Information Retrieval:IR)
も大きく変わりつつあります。
LLMsをIRシステムに統合することで、例えば、IRはよりパーソナライズされ、ユーザの質問の意図に対して、直接的な回答を得られるようになることが期待されています。
また、LLMsの時代に従来のIRフレームワークが必要かどうかということも、大きな課題です。
なお、原論文はサーベイ論文なので、162ものレファレンスがついていますが、この記事では引用は省いていますので、ぜひ原論文をご覧ください。
1 Introduction
- Google、Bing、Baiduなどの検索エンジンなど、様々な情報検索(IR)システムは、ユーザーのクエリに対して関連するウェブページを返し、インターネット上の情報に便利かつ効率的にアクセスできるようになっている。IRはウェブページの検索に限らず、対話システム(チャットボット)、質問応答システム、画像検索エンジンなどにも適用される。
- IRシステムの中心機能は情報の取得であり、ユーザーのクエリと取得すべきコンテンツ(テキスト、画像、音楽などの情報)の関連性を判断する。
- 本サーベイでは、テキスト検索システムに焦点を当て、クエリとドキュメントの関連性は一般的に一致スコアで測定される。
- IRシステムは広範なリポジトリで動作するため、検索アルゴリズムの効率性が非常に重要です。ユーザーエクスペリエンスを向上させるために、検索パフォーマンスは上流(クエリの改善)および下流(再ランキングと読み取り)の観点から強化される。
- クエリの改善は、ユーザーのクエリを洗練させて関連するドキュメントを効果的に取得するために設計されており、会話型検索の増加に伴い注目を浴びている。
- 再ランキングアプローチは、すでにリトリーバーによって取得された関連ドキュメントの一部に対してランキングを調整するために開発されている。
- IRの進化の歴史は、用語ベースの方法からニューラルモデルの統合へと変わった。最初はキーワードの一致とブール論理に基づいていましたが、ベクトル空間モデルや統計的言語モデルを導入することで、意味的な関係を捉える可能性が開かれた。
- 最新のIRの段階は、ニューラルモデルの台頭によって特徴付けられており、文脈と意味の微妙なニュアンスを捉えることに優れています。ただし、これらのニューラルモデルはデータの不足、解釈可能性、正確でない応答の生成などの課題に直面している。
- 大規模言語モデル(LLMs)は、Transformerアーキテクチャをベースにしており、自然言語処理などのさまざまな分野で革命的な進歩を遂げている。LLMsは言語理解と生成において優れた性能を発揮し、新しいタスクに適応する能力があります。LLMsの汎用性は、インコンテキスト学習などの技術によって向上し、特定の下流タスクの微調整を必要とせずに優れたタスクパフォーマンスを達成できるようになりました。
- LLMsの優れた能力を活用することで、IRシステムの性能を向上させることができる。LLMsを組み込むことで、ユーザーにより正確な応答を提供し、情報アクセスの景色を変えることができる。LLMsを活用した新しいIRシステム(New Bingなど)の開発や、リトリーバーなどの特定のモジュール内での適用が行われている。
- このサーベイは、LLMsとIRシステムの交差点を探求し、クエリリライター、リトリーバー、リランカー、リーダーなどの観点からサーベイを行っており、LLMsのIR分野での可能性と制限を理解することを目指す。関連する論文とリソースを収集し、定期的に更新するGitHubリポジトリ( https://github.com/RUC-NLPIR/LLM4IR-Survey )を提供しています。
- このサーベイは、他のLLMsに関するサーベイと区別され、IRシステムの開発と適用のための技術と方法に焦点を当てている。また、LLMsを活用したIRの未来について議論した展望論文もある。
- サーベイは、IRとLLMsの背後にある背景情報を紹介するセクションから始まり、クエリリライター、リトリーバー、リランカー、リーダーの4つの主要な観点からの最近の進歩をレビューするセクション、そして将来の研究の潜在的な方向について議論するセクションで構成されています。最終的に、主要な結果をまとめる。
2 BACKGROUND
2.1 Information Retrieval
- 情報検索(IR)は、一般的に、ユーザーはテキスト形式でクエリを提出し、IRシステムはこれらのクエリをインデックス化されたデータベースと照合し、最も適切な結果を取得するタスクを実行する。
- 初期のモデルの1つはブールモデルであり、ブール論理演算子を使用してクエリ用語を組み合わせ、特定の条件を満たすドキュメントを取得する。
- ベクトル空間モデルは、文書とクエリを用語ベースのベクトルとして表現し、クエリと文書ベクトルの語彙的類似性を評価して関連性を推定する。
- 最近では、ニューラルネットワークの強力な表現能力を活用してクエリと文書間の意味的関係を捉え、検索性能を大幅に向上させることができる。
- このサーベイではLLMsによって大幅に強化された次の4つのモジュールに焦点を当てている。
- "Query Rewriter"は、ユーザークエリの精度と表現力を向上させる重要なIRモジュール。IRパイプラインの初期段階に位置し、初期クエリをより正確にユーザーの情報要件に合わせる役割を果たす。
- "Retriever"は、IRの初期段階で通常文書の検索に使用される。一般的なアプローチは、主にクエリと文書を高次元ベクトル空間に射影し、それから内積計算を通じて関連性スコアを計算する。このパラダイムのシフトにより、クエリと文書の関係を効率的に理解し、ベクトル表現の力を活用して意味的な類似性を捉えることが可能になる。
- "Reranker"は、検索パイプラインの別の重要なモジュールであり、主に取得された文書セット内の文書の並べ替えに焦点を当てている。rerankerモジュールは文書ランキングの品質に大きな重点を置いている。ドメイン固有の目標を統合することで、rerankerモジュールはカスタマイズされた目的のある検索結果を提供し、全体的なユーザーエクスペリエンスを向上させる。
- "Reader"は、大規模言語モデル技術の急速な発展とともに重要なモジュールとして進化した。ユーザーのリアルタイムな意図を理解し、取得したテキストに基づいて動的な応答を生成する能力は、IR結果の提示方法を革命的に変えた。候補文書のリストを表示する代わりに、readerモジュールは回答テキストを直感的な方法で整理し、人間が情報にアクセスする自然な方法を模倣する。
2.2 Large Language Models
- 言語モデル(LMs)は、前の単語からの文脈情報を考慮に入れて単語のシーケンスの生成確率を予測し、それによって次の単語の確率を予測することを目的としている。このため、特定の単語選択戦略を使用することにより、LMsは自然な言語のテキストを生成できる。
- LMsの進化は、4つの段階に分類できる。初めに、LMsは統計学習技術に根ざしており、統計言語モデルと呼ばれた。これらのモデルは、単語の予測問題に取り組み、マルコフ課程を使用して前の単語に基づいて次の単語を予測。その後、特に再帰型ニューラルネットワーク(RNNs)を使用してテキストシーケンスの確率を計算し、ニューラル言語モデルを構築した。これらの進歩により、LMsは単なる単語シーケンスモデリングを超えた表現学習に使用できるようになった。
- 大規模な言語モデル(LLMs)は、その大規模なパラメータ数やデータ量により、タスクのパフォーマンスを向上させる傾向があり、大規模なタスクに対処できる印象的な能力(新たな能力)を示す。LLMsは、エンコーダデコーダモデルとデコーダのみモデルの2つのカテゴリに分類できる。エンコーダデコーダモデルは、入力テキストをベクトルに変換するエンコーダコンポーネントを組み込み、これらのベクトルを出力テキストの生成に使用する。デコーダのみモデルは、Transformerデコーダアーキテクチャに依存している。
- これらのモデルは、特定のタスクに対してLLMsを微調整するための2つの主要なメソッドを確立:コンテキスト内の学習(ICL)とパラメータ効率の微調整
3 QUERY REWRITER
- 伝統的な情報検索(IR)システムでは、ユーザーがクエリを入力し、システムはクエリの用語に一致する文書のリストを返す。しかし、元のクエリはしばしば短くまたは曖昧であり、語彙の不一致の問題に対してより脆弱。
- たとえば、ユーザーが「automobile」というクエリを検索エンジンに入力すると、彼らは車に関する情報を期待している。しかし、検索結果のほとんどが「automobile」ではなく「vehicle」という用語を使用している。検索エンジンは主に正確なクエリ用語に依存しているため、「vehicle」という用語を含む最も関連性の高い文書を取得できない可能性があり、語彙の不一致の課題につながる。
- さらに、会話型の検索などの現代的なIRシステムでは、クエリの書き換えのタスクがさらに重要な役割を果たす。
- 伝統的なクエリの書き換え方法は、初期クエリで取得されたトップランクの文書の分析に基づいて、ユーザーの元のクエリを反復的に改良する。しかし、これらの方法はしばしば事前に定義されたルールやヒューリスティクスに依存しており、ユーザーの意図の微妙なニュアンスを十分に捉える能力に制約がある。
- LLMsの最近の進歩は、クエリの書き換えの能力を強化し、ユーザーの複雑で多様な情報ニーズにより適合するクエリ書き換えの新しいアプローチを探ることができる。以下のセクションでは、LLMsをクエリの書き換えに活用する詳細を紹介する。
3.1 Re-writing Target
- クエリの書き直しは通常、2つのシナリオに役立つ。
- アドホック検索はクエリと文書間の語彙の不一致を解決する。
- 対話型検索は進行中の対話に基づいてシステムの応答を調整する。
3.1.1. Ad-hoc Retrieval
- アドホック検索の文脈では、クエリの書き直しの主要な目的は、ユーザーの情報ニーズにより適合したドキュメントのコレクションを取得すること。
- LLMsのクエリ書き直しは、LLMsは言語の意味や文脈を効果的に捉え、統計的な方法と比較してクエリの真の意図をより良く理解できる。
- Broad Knowledge.
- LLMsは幅広い知識を持ち、さまざまな概念や情報を利用できる。この知識は、さまざまなトピックに対する理解を活かして関連性の高いクエリの書き直しを生成するのに役立つ。
- Independence of First-pass Retrieval.
- 伝統的な擬似関連性フィードバック(PRF)法は擬似関連性のあるドキュメントを取得し、元のクエリを洗練化する。
3.1.2 Conversational Search
- 対話型検索では、ユーザーと検索システムの動的なやり取りが行われ、システムはユーザーのクエリに応答し、情報ニーズを明確にするための対話が行われる。
- クエリの書き直しは、このコンテキストで進化する対話に基づいてシステムの応答を調整し適応させる役割を果たす。
- LLMsの利用には、コンテクスト理解能力と生成能力があり、ユーザーとシステムの対話を通じた検索意図のモデリングを向上させる。
- LLMCSフレームワーク (“Large Language Models know your Contextual Search intent”) は、LLMsを活用し、クエリの書き直しとシステムの仮想的な応答を生成し、ユーザーの完全な検索意図を強固に捉える方法を提供する。これにより、明確な検索意図を補完して、検索性能が大幅に向上する。
3.2 Data Resources
- クエリの書き直しは通常、元のクエリを充実させるための補助的なコーパスを必要とする。
- LLMsは、特定のドメインには不十分である可能性があり、したがって、より包括的でドメイン固有の情報を提供するためにドメイン固有のコーパスが必要とされる。
- このセクションでは、LLMsだけを使用するLLM-onlyアプローチと、ドメイン固有のコーパスを活用してLLMsの能力を強化するコーパス拡張型LLMsベースの方法の2つのアプローチを分析する。
3.2.1 Inherent Knowledge of LLMs(LLMsの固有知識)
- LLMsはそのパラメーターに知識を格納でき、クエリの書き直しにこの知識を活用する。
- HyDEは、LLMsによってクエリに基づいて仮想的なドキュメントを生成し、それを用いて密な retliever を使って関連する文書を取得する。
- Query2docはLLMsにプロンプトを与えて擬似ドキュメントを生成し、それを用いてクエリを拡張する。
3.2.2 Inherent Knowledge of LLMs and Document Corpus
- LLMsは印象的な能力を持つが、特定の領域に不慣れなため、ハルシネーション的なクエリや関連性のないクエリを生成することがある。
- この問題を解決するため、最近の研究では、文書コーパスを活用してLLMsベースのクエリ書き直し方法を強化するハイブリッドアプローチが提案されている。
- 文書コーパスを統合することは、いくつかの利点を提供する。特に、特定の主題領域に対してクエリ生成プロセスを微調整し、IRにおいてターゲットと専門的なアプローチを可能にするドメイン固有の知識を提供する。
- 文書コーパスを統合することで、クエリを確実で検証可能な知識に基づかせ、最新の情報を取り入れることができる。
- 関連文書を利用してクエリ生成プロセスを洗練し、関連性をサポートし、無関連な情報の生成を減少させることができる。
- LLM-onlyと伝統的なpseudo relevance feedback (PRF)の結果を遅延融合。PRFはコーパスから取得した関連文書を利用してクエリを書き直すが、対象コーパスの情報に制限される。
- LLMsのプロンプト内で取得した関連文書の組み合わせ。検索エンジンはLLMs生成の知識でクエリを拡張でき、同時にLLMsは検索エンジンによって提供された関連文書でプロンプトのフォーミュレーションを洗練させることができる。
- PRFを用いてgenerative relevance feedback (GRF) の事実性を向上。生成的ドキュメントは多様で関連性があるが、幻覚的な特徴がある。これに対して、伝統的なドキュメントは信頼される事実情報のソースと見なされている。
- GRMは、関連文書を利用して生成された文書に重みを割り当てることで、関連フィードバックが多様であるだけでなく、事実性が高いことを保証する。
3.3 Generation Methodology(生成方法)
- LLMsをクエリの書き直しに活用するための主要なアプローチは3つある。
- 最も一般的なのはプロンプト法で、特定の指示を使って言語モデルをガイドする。プロンプト法は柔軟性と解釈可能性を提供する。
- LLMsのドメイン特有の効果を向上させるために、ファインチューニングと知識蒸留も有効な方法。
- 知識蒸留はLLMsの知識を軽量なモデルに移すことで、推論の複雑性を軽減する。
3.3.1 Prompting Methods
- LLMsのプロンプティングは、モデルのテキスト生成をガイドするための具体的な指示や文脈を提供する技術。
- プロンプトの形式はさまざまで、質問や不完全な文、具体的な指示などがある。プロンプトは条件付け信号として機能し、モデルの言語生成プロセスに影響を与える。そのため、プロンプトの質と設計に依存する。
- 一般的なプロンプティング戦略には、ゼロショットプロンプティング、フューショットプロンプティング、チェーンオブソート(CoT)プロンプティングなどが含まれる。
- ゼロショットプロンプティングでは、モデルに特定のトピックに関する事前のトレーニング例がない状態でテキスト生成を指示。モデルは既存の知識と言語理解に依存して、元のクエリのための一貫性のあるコンテクストに適した拡張用語を生成する。
- フューショットプロンプティングでは、モデルに特定のタスクやドメインに関連する限られた例またはデモを提供する。これらの例は明示的な指示の一形態であり、モデルを特定のタスクやドメインに適応させることができる。
- チェーンオブソートプロンプティングは反復的なプロンプティングを含む戦略で、モデルに一連の指示または部分的な出力が提供される。これは対話型検索に適しており、クエリの書き直しプロセスが複数のターンで行われる場合に適している。一般的な検索では、クエリの書き直しは単一のラウンドで行われるため、CoTは簡単な方法でのみ実行できる。
3.3.2 Fine-tuning Methods
- ファインチューニングは、LLMsを特定のドメインに適応させるための効果的で普及したアプローチ。
- 通常、ファインチューニングのプロセスは、事前にトレーニングされたLLMsに、対象ドメインに特化したデータセットでさらにトレーニングする。
- ファインチューニング中にモデルのパラメーターは調整され、特定のドメインタスクでのパフォーマンスが最適化される。
- ドメイン固有のデータでLLMsをトレーニングすることで、LLMsはドメイン固有のパターン、用語、文脈を学び、高品質のクエリの書き直し能力が向上する。ただし、ファインチューニングはコストがかかることがある。
3.3.3 Knowledge Distillation Methods (知識蒸留法)
- LLMsベースの方法はクエリの書き直しタスクで大幅な改善を示しているが、LLMsの計算要件による遅延が実用的な展開を妨げている。この課題を緩和するため、知識蒸留が注目されている。
- 知識蒸留方法は、モデルサイズを単純に拡大させるよりも優れた結果をもたらすことを実証している。
- 新たに提案された「書き直し-取得-読み込み」フレームワーク(“rewrite-retrieve-read” framework)では、LLMsがまずプロンプティングによってクエリを書き直し、その後取得強化型の読み取りプロセスが続く。
3.4 Limitations(制限)
- さまざまなクエリ書き換え方法での実験は、生成されたドキュメントや回答の数を増やすことが検索性能に良い影響を与えることを一貫して示している。
- 既存の研究は、候補ドキュメントが元のクエリの補完的な文脈を提供する一方で、多くは元のクエリの重要性に重点を置いている。
- クエリ書き換えを評価するための専用のメトリックが不足しているとされており、既存のモデルは主にダウンストリームの検索タスクに依存してQuery Rewriterの効果を評価している。
- 書き換えられたクエリが人間の意図を反映し、特定のタスクに効果的に役立っているかを直接判断する方法は未解決のまま。
4 RETRIEVER
- IRシステムにおいて、 retliever はユーザークエリに合致するドキュメントを選別する役割を果たす。
- retliever は高い効率と適合率を持つことが求められ、その適合ドキュメントはユーザーへの最終結果として提供される。
- 近年、統計的なアルゴリズムからニューラルモデルへのシフトが retliever モデルで見られ、ニューラルモデルは文脈を理解し、複雑なユーザーの意図を考慮することで、高い性能を発揮している。
- この分野における主な課題には、短く曖昧なユーザークエリ、長文書のエンコードと情報抽出、高品質な訓練データの収集が含まれる。
4.1 Leveraging LLMs to Generate Search Data (LLMsを活用した検索データの生成)
- 検索データの品質と量を考慮した上で、LLMsを使用して検索パフォーマンスを向上させる2つの主要な観点がある。
- 1つ目の観点は、検索データの改良方法に焦点を当てており、入力クエリを再構成してユーザーの意図を正確に提示することに集中している。
- 2つ目の観点は、トレーニングデータの拡張方法に関連しており、特にゼロショットまたはフューショットのシナリオで、密なリトリーバルモデルのためのトレーニングデータを拡大するためにLLMsの生成能力を活用する。
4.1.1 Search Data Refinement
- 入力クエリは通常、短い文またはキーワードベースのフレーズから成り、曖昧で異なるユーザーの意図が含まれる。
- 特定のユーザー意図を正確に判断することは重要。また、ドキュメントには冗長な情報やノイズが含まれることがあり、 retliever がクエリとドキュメントの関連性を抽出する際に課題がある。
- LLMsの強力なテキスト理解と生成能力を活用することで、これらの課題に有望な解決策が提供される。
- 現在の研究は主に、LLMsをQuery Rewriterとして活用し、入力クエリをユーザーの検索意図をより正確に表現するために焦点を当てている。
- クエリリライティングに加えて、LLMsを使用して長文書のリファインメントにより検索の効果を向上させる興味深い研究領域があり、今後のサーベイと発展が期待されている。
4.1.2 Training Data Augmentation(トレーニングデータの増強)
- ニューラルリトリーバルモデルのトレーニングにおいて、人間による注釈付きラベルのコストが高いため、トレーニングデータの不足が一般的な課題。
- LLMsのテキスト生成能力は、この問題に対する潜在的な解決策を提供している。
- 主要な研究の焦点は、LLMsの能力を活用して擬似的な関連信号を生成し、リトリーバルタスクのトレーニングデータを増やす戦略の開発。
- リトリーバルモデルの適用範囲は多岐にわたり、異なるドメインのデータに関連性ラベルを付けることは費用がかかる。そのため、ラベル信号が不足するターゲットドメインでのモデルの効果を向上させるために、データ拡張が一般的な方法となっている。
- 情報検索の場面では、文書の収集は比較的容易だが、ユーザークエリを実際に収集し、それに関連する文書にラベルを付けるのは難しく、高コスト。
- しかし、LLMsのテキスト生成能力を活用することで、既存のコレクションを基に擬似クエリや関連性ラベルを生成する手法が提案されている。
- 生成されたデータのタイプに応じて、リトリーバルモデルのLLMsベースのデータ拡張を補完する擬似クエリ生成と関連性ラベル生成という、2つの主要なアプローチがある。
- 「擬似クエリ生成」
- 大量の文書を用いて、それに対応する擬似クエリを生成するためにLLMsを活用する。
- 「関連ラベル生成」
- 検索に関連付けられた質問が充分にある一方で、それらの質問と支持証拠のパッセージを結ぶ関連ラベルが非常に限られているタスク(例:質疑応答)において、LLMsの関連ラベル生成能力を活用する方法が有望。
4.2 Employing LLMs to Enhance Model Architecture (モデルアーキテクチャを強化するためにLLMsを活用する)
- LLMsの優れたテキストエンコーディングおよびデコーディング能力を活用することで、以前の小規模モデルよりもクエリとドキュメントをより正確に理解することが可能。
- 研究者は、LLMsを高度な情報検索モデルの基盤として活用しようとしており、これらの方法はエンコーダーベースの retliever とジェネレーティブ retliever の2つのカテゴリに分類できる。
4.2.1 Encoder-based Retriever
- テキストデータの量と品質と同様に、モデルの表現能力も retliever の性能に影響する。
- LLMsを retliever エンコーダーとして使用し、モデルのスケールが性能に与える影響を研究している。
- 一般的な retliever モデルとして、テキスト埋め込みモデルの進化が重要。
4.2.2 Generative Retriever
- 従来の情報検索(IR)システムは「索引-取得-ランキング」パラダイム(“index-retrieval-rank” paradigm)に従い、ユーザーのクエリに基づいて関連文書を検出する。
- これらのシステムは通常、索引モジュール、取得モジュール、再ランキングモジュールの3つの独立したモジュールから構成されており、これらのモジュールを一貫して最適化することは難しい場合がある。
- 生成retriever は、伝統的な「索引-取得-ランキング」パラダイムから逸脱し、クエリに関連するドキュメント識別子(DocID)を直接生成する統合モデルを使用する。
- モデルベースの生成 retliever メソッドでは、ドキュメントコーパスの知識がモデルパラメータに格納され、索引の追加ストレージスペースが不要。
- LLMsの微調整とプロンプティングを用いてDocIDを生成する方法を探索している。
4.3 Limitations
- LLMsを活用した情報検索には進展が見られるものの、追求すべき領域が多い。
- 例えば、検索システムの要求事項の一つは高速な応答だが、既存のLLMsはモデルパラメータが多く、推論に時間がかかるという課題がある。
- LLMsをデータセット拡充に活用する際、実際のユーザークエリとLLMs生成テキストの不一致が検索効果に影響を与える可能性がある。
- LLMsは通常、ドメイン固有の知識を欠いているため、タスク固有のデータセットで微調整することが必要。したがって、多くのパラメータを持つこれらのLLMsを効率的に微調整する戦略の開発が重要な懸念となっている。
5RERANKER
- IRの第2段階ドキュメントフィルターであるRerankerは、 retliever (例:BM25)によって取得されたドキュメントリストを、クエリ-ドキュメントの関連性に基づいて再ランク付けすることを目指している。
- LLMsの適用に関して、既存の再ランキング方法は、LLMsの微調整、LLMsのプロンプト、LLMsを使用したトレーニングデータの拡充という3つの主要なパラダイムに分かれる。
5.1 Fine-tuning LLMs for Reranking(再ランキングのためにLLMsをファインチューニング)
- ファインチューニングは、事前にトレーニングされたLLMsを再ランキングタスクに適用する際の重要なステップ。
- LLMsは元々ランキング向けにトレーニングされていないため、再ランキングタスクのクエリ-ドキュメントの関連性を適切に評価できず、理解も不十分。
- そのため、MS MARCOパッセージランキングデータセットなどのタスク固有のランキングデータセットでLLMsをファインチューニングすることで、再ランキングタスクでのパフォーマンスを向上させることができる。
- 一般的に、LLMsのファインチューニング戦略は、LLMsを生成モデルとして扱う方法と、ランキングモデルとして扱う方法の2つの主要なアプローチに分類できる。
5.1.1 Fine-tuning LLMs as Generation Models (生成モデルとしてLLMsをファインチューニング)
- ドキュメントランキングを生成タスクとし、LLMsを生成損失でファインチューニングする。
- 再ランキングモデルは、通常、クエリとドキュメントが与えられた際に「true」または「false」という単一トークンを生成するようにファインチューニングされる。推論時には、このトークンのロジット(logit)に基づき関連性スコアが決定される。
- さらに、他のアプローチでは、T5モデルを使用した多視点学習アプローチがあり、同時にクエリ-ドキュメントのペアに対する分類トークンを生成するタスクと、提供されたドキュメントに基づいて対応するクエリを生成するタスクを考慮する。
- また、DuoT5は、トリプル(q、di、dj)をT5モデルの入力とし、document di が document dj よりもクエリ qi に対して関連性が高い場合にトークン「true」を生成するようにファインチューニングされる。
5.1.2 Fine-tuning LLMs as Ranking Models(ランキングモデルとしてLLMsフをァインチューニング)
- LLMsを生成モデルとしてファインチューニングする方法は、一部の強力なランキングベースラインを上回るが、再ランキングタスクに最適ではない。これには2つの主要な理由がある。
- 第一に、再ランキングモデルは通常、テキストトークンではなく、各クエリ-ドキュメントペアに対して数値的な関連性スコアを生成することが期待される。
- 第二に、ランキング損失(例:RankNet)を使用して再ランキングモデルを最適化することが、生成損失よりも合理的。
- RankT5が直接クエリ-ドキュメントペアの関連性スコアを計算し、リストワイズなランキング損失を用いてランキングパフォーマンスを最適化する。
- また、ベースサイズのT5モデルをその大規模版と置き換えることで性能向上の可能性がある。
5.2 Prompting LLMs for Reranking(再ランキングのためのLLMsのプロンプト)
- LLMsのサイズが拡大すると(例:100億以上のパラメーター)、再ランキングモデルのファインチューニングがますます難しくなる。この課題に対処するため、最近の取り組みでは、LLMsの卓越したプロンプトを活用して、直接文書の再ランキングを強化しようと試みられている。
- 一般的に、これらの再ランキング用プロンプト戦略は、pointwise、listwise、pairwiseの3つのカテゴリに分けることができる。
5.2.1 Pointwise methods
- Pointwise法は、単一の文書とクエリの関連性を評価するために使用され、関連性生成とクエリ生成の2つの主要なタイプに分かれる。
- 関連性生成(図6(a)の上部)では、LLMsが文書がクエリに関連している場合に"Yes"、それ以外の場合に"No"を出力し、この結果から関連性スコアを計算する。
- クエリ生成では、文書に基づいてクエリトークンを生成する対数尤度の平均によって関連性スコアが計算される。これらの方法は、関連性スコアに基づいて文書を再ランキングする。
- プロンプトはLLMsのタスクを指示する重要な要素であり、最適なプロンプトを特定することは性能向上に寄与する。
- Co-Promptは、再ランキングタスクでの最適なプロンプト生成のための離散プロンプト最適化方法。
5.2.2 Listwise Methods
- Pointwise法は、LLMs API(例:ChatGPTやGPT-4)では通常利用できない出力トークンの対数確率を使用してクエリ-ドキュメントの関連性スコアを計算する。
- 最近、この問題の解決策として、直接ドキュメントリストをランク付けするlistwise法]が提案された。
- これらの方法は、クエリとドキュメントリストをプロンプトに挿入し、LLMsに再ランク付けされたドキュメント識別子を出力するよう指示する。
- LLMsの入力長が限られているため、これらの方法は各スライディングウィンドウで候補ドキュメントのサブセットを再ランク付けする戦略も採用している。
- 複数のLLMsに基づく幅広い実験によれば、GPT-4ベースの方法は競争力のある結果を達成し、いくつかのIRベンチマークで一部の教師あり方法を上回ることさえある。
5.2.3 Pairwise Methods
- listwise法は有望なパフォーマンスを示しているが、いくつかの弱点が存在している。
- 実験結果によると、GPT-4ベースの方法のみが競争力のあるパフォーマンスを達成できる。パラメータが小さい言語モデル(例:20BパラメータのFLANUL2)を使用すると、listwise方法は非常に少数の有用な結果しか生成せず、多くの教師あり方法に劣ることがある。
- 第二に、listwise方法のパフォーマンスは、プロンプト内のドキュメントの順序に非常に敏感。ドキュメントの順序がランダムにシャッフルされると、listwise方法はBM25よりもさらに劣るパフォーマンスを示す。
- これらの弱点は、一般的な既存のLLMsが通常、ランキングタスクに対して事前トレーニングされていないことから生じる可能性がある。
- 最近の研究]は、LLMsが本質的にはペアワイズなドキュメント比較のセンスを持っており、これはドキュメントリストの再ランキングを直接出力するよりもはるかに単純であることを示している。
- この研究では、ペアワイズランキングプロンプト(図6(c)を参照)を設計し、あるドキュメントが別のドキュメントよりも関連性があるかどうかを比較するようにする。その後、このペアワイズランキングプロンプトを再ランキングの計算ユニットとして活用するためのいくつかのランキングアルゴリズムが考案されている。
5.3 Utilizing LLMs for Training Data Augmentation(トレーニングデータの補強にLLMsを使う)
- 再ランキングの文脈で、研究者たちはLLMsをトレーニングデータの増強に組み込む方法を探求している。
- 例えば、ExaRankerはGPT-3.5を使用してリトリーバルデータセットの説明を生成し、それを用いてseq2seqランキングモデルをトレーニングして、クエリ-ドキュメントのペアに対する関連性ラベルと説明を生成する。
- InPars-Lightは、LLMsをプロンプトとして使用して文書に対するクエリを合成するコスト効果の高い手法として提案されている。
- さらに、ユーザーのクエリに対するLLMsの応答に基づいて合成文書を生成するChatGPT-RetrievalQAという新しいデータセットが作成された。
- ChatGPTの文書ランキング機能を専用モデルに蒸留しようとする試みも行われており、まずChatGPTに文書のランキングリストを直接生成させる。その後、生成された文書リストをターゲットとして、さまざまなランキング損失(例:RankNet)を使用して学習モデル(DeBERTa-v3-baseなど)をトレーニングする。これにより、再ランキングにおけるLLMsの活用がさらに探求されている。
5.4 Limitations
- LLMsを文書の再ランキングに利用する最近の研究は進展しているが、まだいくつかの課題が存在する。
- たとえば、コストと効率を考慮して、LLMs APIの呼び出し回数を最小限に抑える方法を研究する価値がある。
- さらに、既存の研究は主にオープンドメインのデータセット(MSMARCOなど)や関連ベースのテキストランキングタスクにLLMsを適用しているが、特定ドメインのデータセットや非標準のランキングデータセットに対する適用性については、より包括的な探求が求められている。
6 READER
- LLMsの印象的な能力を活用して、情報検索(IR)システムをコンテンツランキングから回答生成に拡張する研究が行われている。
- この進化において、readerモジュールが導入され、IRシステム内のドキュメントコーパスに基づいて回答を生成する。readerモジュールを統合することで、IRシステムはユーザーに結論的なパッセージを直接提供できる。
- この新しいパラダイムでは、文書のリストを提供する代わりに、ユーザーはランキングリストを分析する代わりに回答のパッセージを理解できる。
- また、LLMsに対して生成テキストに基づいて文書を繰り返し提供することで、最終的に生成される回答は、元の検索結果リストよりもより正確で情報豊富になる可能性がある。
- この機能を実装するための単純な戦略は、LLMsに対してユーザークエリまたは以前に生成されたテキストを参照するための文書を提供することである。
- しかし、この受動的なアプローチは、LLMsが積極的に参加せずに単にIRシステムから文書を収集するにとどまる。
- 代替案として、LLMsに対して積極的に検索エンジンと対話するようトレーニングする方法がある。たとえば、LLMsはユーザークエリや生成されたテキストだけでなく、独自のクエリを作成することができる。LLMsがreaderモジュールでIRシステムをどのように利用するかに応じて、それぞれを受動的なreaderとアクティブなreaderに分類できる。これらのアプローチは、IRシステム内でLLMsによる回答生成を実装するための利点と課題を持っている。
6.1 Passive Reader
- ユーザーのために回答を生成するための戦略の一つは、IRシステムから取得されたドキュメントを、クエリまたは以前に生成されたテキストに基づいてLLMsに供給し、パッセージを作成することである。
- この方法により、これらのアプローチはLLMsを受動的な文書の受信者として機能させ、LLMsとIRシステムを別々に使用する。IRシステム内のreaderモジュールでLLMsを活用する戦略は、LLMsがドキュメントを取得する頻度に応じて次の3つのグループに分類できる。
6.1 1 Once-Retrieval Reader(一回検索reader)
- ユーザーのクエリに回答を生成する際、LLMsに有用な参照を提供する戦略の1つは、最初にクエリ自体に基づいてトップのドキュメントを取得すること。
- REALMやRAGなどの既存のアプローチは、この戦略を採用しているが、制限付きパラメータを持つモデル(例:BERTやBART)を使用している。しかし、最新のアプローチ(REPLUG、Atlasなど)は、より大規模なLLMs(例:GPT、T5)を活用して回答生成の性能を向上させている。
- これらのモデルは通常、QAタスクでLLMsを微調整して、より良い回答を生成する。しかし、計算リソースの制約から、いくつかの方法ではLLMsにプロンプトを与えて生成を促すアプローチを選択している。
- また、固定のLLMsをリーディングタスクに適用するために、RETA-LLMsでは複数の単純なモジュールが導入されている。これには、クエリの意図を微調整するためのモジュール、生成された回答の参照をLLMsの制約に合わせるためのモジュール、および回答内の虚偽情報の確認を行うためのモジュールが含まれる。
6.1.2 Periodic-Retrieval Reader(定期検索reader)
- 「Barack Obama」についての情報を生成する際、初期クエリの結果に含まれない彼の大学情報など、追加の知識が必要。そのため、回答生成中に追加の情報源が必要であり、複数の情報検索プロセスが必要とされている。
- これに対処するために、RETROやRALMなどの解決策が提案されており、初期クエリと同時に生成されたテキストに基づいて定期的に文書を収集することを強調している。
- これにより、よりロバストな回答生成が可能になる。
- RETROはクロスアテンションを活用し、既存のTransformerアーキテクチャに追加のモジュールを導入してトレーニングされている。ただし、RETROやRALMは、一定数のトークンを生成してから文書を取得するため、意味的に不連続な参照が生じる可能性があることに注意が必要。
- この問題に対処するため、IRCoTなどのアプローチでは、生成された文ごとに文書を取得する方法が探求されている。これにより、より統一的な意味構造が得られる。
6.1.3 Aperiodic-Retrieval (非周期的検索)
- 上記の戦略では、検索システム(retrieval systems)は文書をLLMsに定期的に提供する。
- しかし、強制的な頻度で文書を取得すると、タイミングが合わずコストがかかる可能性がある。最近、FLAREは、生成テキストの確率に基づいて取得のタイミングを自動的に決定することで、この問題に対処した。確率はLLMsの自信の指標として機能し、生成された用語の確率が低い場合、LLMsは追加の知識が必要かもしれない。FLAREは、確率に基づいてLLMsに回答生成を促す戦略を採用し、微調整が不要で効果を維持する。
6.2 Active Reader
- パッシブreaderベースのアプローチはIRシステムとLLMsを分離している。このため、LLMsはIRシステムから提供された参照情報のみを受動的に使用し、情報を探すような人間と同様のインタラクションを行うことができない。
- Self-AskとDSP は、LLMsがアクティブに検索エンジンを使用できるように、必要と判断した場合にクエリを検索するトリガーを提供する。
- これにより、情報を取得し、最終的な回答を生成するまでの過程でIRシステムに繰り返しクエリを送信できる。
- MRC は、これらの方法をさらに改善し、LLMsに複数の推論チェーンを探索させ、すべての生成された回答を組み合わせるよう促す。また、WebGPT は、GPT-3モデルに自動的に検索エンジンを使用させる方法を提供する。これにより、生成テキストの信頼性とリアルタイム性が向上する。
6.3 Limitations
- 新たな情報検索強化生成戦略を採用するIRシステム(New BingやLangchainなど)が商業利用に進出しているが、効果的なクエリ改良、適切な取得頻度、正確な文書理解、適切なパッセージ抽出、効果的なコンテンツ要約など、この新しい生成システムにはいくつかの課題が存在する。これらの課題に対処することは、LLMsの潜在能力を効果的に実現するために重要。
7 FUTURE DIRECTION(今後の方向性)
- このサーベイでは、LLMsを活用したIRシステムの最近の進展と制限について包括的に検討した。
- LLMsをIRシステムに統合する取り組みはまだ初期段階であり、多くの機会と課題が残されている。
- このセクションでは、IRシステムの4つのモジュール(Query Rewriter、 retliever 、reranker、reader)に関する将来の方向性をまとめ、評価も重要な側面として取り上げ、将来の研究課題について紹介する。
- また、LLMsをIRに適用する重要な研究トピックに関する議論は最近の展望論文でも見つけることができる。
7.1 Query Rewriter
-
LLMsはアドホックおよび対話型検索のクエリ改変を向上させている。既存の方法のほとんどは、LLMsに新しいクエリを生成させることに依存している。
-
優れた結果を生み出す一方で、改変(リライト)の品質向上と潜在的な適用シナリオの探索にはさらなる研究が必要。
-
クエリの再構築をランキングのパフォーマンスに応じて行う
- 現在のアプローチでは、LLMsにいくつかの正解の再構築ケース(オプション)とクエリ再構築のタスク説明を提供する。
- しかし、LLMsはクエリの潜在的なユーザー意図を識別する能力があるものの、再構築されたクエリの検索品質に対する認識が不足している。これが不足すると、正しそうでもランキングの結果が不満足な再構築クエリが生成される可能性がある。
- ランキング結果の統合に関する研究は未だ未開拓の領域。
-
対話型検索におけるクエリの再構築の向上
- 現在の主要な取り組みはアドホック検索におけるクエリ再構築の改善に対して行われているが、対話型検索はより広範なスコープを持ち、LLMsがクエリ理解に貢献できる余地がある。歴史的な対話情報を取り入れることで、LLMsはユーザーの好みに基づいてシステムの応答を適応させ、より効果的な対話体験を提供できる。
-
パーソナライズされたクエリ再構築を実現する
- LLMsはユーザー固有のデータを分析する能力を持つため、パーソナライズされた検索に貢献できる。
- クエリ再構築に関しては、LLMsの優れた言語理解能力を活用して、ユーザーの検索履歴(発行されたクエリ、クリック動作、滞在時間など)に基づいてユーザープロファイルを作成することが可能。
- これにより、情報検索のためのパーソナライズされたクエリ再構築が実現し、個別の検索または個別の推薦に利益をもたらす。
7.2 Retriever
-
LLMsを活用して検索モデルを向上させることは、クエリとドキュメントの理解を向上させ、ランキングの性能を向上させる可能性がある。
-
しかし、この分野で進展がある一方で、いくつかの課題と制約が未来の研究で解明される必要がある。
-
その1つは、LLMsベースの retliever の遅延時間を減少させること。LLMsは大規模なパラメータと世界の知識を持つため、推論プロセス中に高い遅延を伴うことがあり、これは検索エンジンなどの実用的なアプリケーションにおいて課題となる。
-
この問題に対処するための研究方向には、LLMsの能力を小さなモデルに転送すること、IRタスクでのLLMsの量子化技術の探索などが含まれる。
-
データ拡張のための現実的なクエリのシミュレーション
- LLMsの高い遅延はオンラインでの retliever タスクへの適用を妨げるため、多くの既存研究はLLMsを利用して推論遅延に影響を受けないトレーニングデータを増やしている。
- ただし、既存のLLMsを利用したデータ拡張方法は、実際のユーザークエリに整合しないクエリを生成することが多く、トレーニングデータにノイズを生じ、 retliever の効果を制限している。
- このため、リアルなクエリの発行方法をシミュレートするために強化学習などの手法を探索することが、 retliever タスクの向上の可能性を秘めている。
-
生成型 retliever のためのインクリメンタルインデキシング
- LLMsの登場により、生成型 retliever が retliever タスク向けのドキュメント識別子を生成する道が開かれた。
- ただし、LLMsパラメータの静的な性質と高コストな微調整コストが、新しいドキュメントが追加されるときに生成型 retliever のドキュメントインデックスを更新する際の課題となっている。
- したがって、LLMsベースの生成型 retliever で効率的な更新を可能にするインクリメンタルインデックスの構築方法を探索することが重要。
-
マルチモーダル検索のサポート
- ウェブページには通常、テキスト、画像、音声、ビデオなどのマルチモーダル情報が含まれている。ただし、既存のLLMs強化型IRシステムは主にテキストベースのコンテンツの検索をサポートしている。
- 直接的な解決策は、GPT-4などのマルチモーダル大規模モデルでバックボーンを置き換えること。ただし、これは展開コストを必然的に増加させる。有望でありながら難しい方向性は、LLMsの言語理解能力を既存のマルチモーダル検索モデルと組み合わせること。これにより、LLMsは異なる種類のコンテンツを処理する際に言語スキルを提供できる。
7.3 Reranker
- セクション5では、LLMsを再ランキングタスクに活用する最新の技術について議論した。再ランキングにおける潜在的な将来の方向性は以下の通り。
- LLMsのオンライン利用可能性の向上
- 多くのLLMsは膨大なパラメータを持っており、オンラインアプリケーションに展開するのが難しい。
- さらに、多くの再ランキング方法はLLMs APIを呼び出すことに依存し、コストがかかる。
- したがって、LLMsのオンライン適用性を向上させる効果的な方法(例:小さなモデルへの蒸留など)を考案することが必要。
- パーソナライズされた検索の向上
- 多くの既存のLLMsベースの再ランキング方法は主にアドホックな再ランキングタスクに焦点を当てている。
- しかし、ユーザー固有の情報を組み込むことで、LLMsはパーソナライズされた再ランキングタスクの効果も向上させることができる。
- ユーザーの検索履歴を分析することで、LLMsは正確なユーザープロファイルを構築し、検索結果を再ランク付けして、ユーザー満足度の高いパーソナライズされた結果を提供できる。
- 多様なランキングタスクに適応
- 文書の再ランキングに加えて、応答のランキング、証拠のランキング、エンティティのランキングなど、他のランキングタスクも存在する。これらはすべて普遍的な情報アクセスシステムに属する。
- LLMsをこれらの異なるランキングタスクに適応させるためには、専門的な方法論(例:指示調整)による。
7.4 Reader
- LLMsの能力向上により、ユーザーとIRシステムの未来の相互作用が大きく変わる。
- LLMsの強力な自然言語処理および理解能力により、伝統的なランキング結果の提供から、ユーザークエリに対する決定的な回答パッセージを生成するreaderモジュールを使用する新しい検索パラダイムへの移行が期待される。
- しかし、これらの戦略は既に研究と産業によって検討されているが、まだ多くの探索の余地がある。
- LLMsのための参照品質の向上
- 回答生成をサポートするために、既存のアプローチでは通常、取得した文書をLLMsに直接参照として提供する。
- しかし、文書は通常、多くのトピックをカバーしており、それに含まれる一部のパッセージはユーザーのクエリと関連性がなく、LLMsの生成中にノイズを導入する可能性がある。
- したがって、取得した文書から関連するスニペットを抽出する技術を探究し、取得強化生成の性能を向上させる必要がある。
- ・LLMsの回答の信頼性の向上
- 取得した参照情報を組み込むことで、LLMsのハルシネーション問題が大幅に緩和された。
- しかし、LLMsがクエリに回答する際にこれらのサポート材料を参照するかどうかは不確か。一部の研究では、追加の参照情報があっても、LLMsは不正確な回答を提供することがあることが明らかになっている。したがって、確定的な回答の信頼性は、従来のIRシステムが提供するランキング結果と比較して低い可能性がある。これらの参照情報が生成プロセスに与える影響をサーベイし、新しいIRシステムの信頼性を向上させるための研究が不可欠。
7.5 Evaluation
- LLMsはコンテキスト理解とテキスト生成の強力な能力を持つため、IRの分野で注目を集めている。LLMsで強化したIRアプローチの効果を検証するためには、適切な評価指標を開発することが重要。
- IRシステムの重要な要素としてのreaderの増加に伴い、評価はランキングパフォーマンスの評価と生成パフォーマンスの評価の2つの側面を考慮すべき。
- 生成志向のランキング評価
- 伝統的なランキングの評価メトリクスは主にIRモデルの検索結果とグラウンドトゥルース(ground-truth)(関連性) (relevance)ラベルを比較することに焦点を当てている。典型的なメトリクスには、適合率、再現率、mean reciprocal rank(MRR)、mean average precision(MAP)、normalized discounted cumulative gain (nDCG)などがある。これらのメトリクスは、ランキング結果とそれを使用する人間の選好の整合性を測定する。ただし、これらのメトリクスは、ドキュメントがパッセージや回答の生成における役割を適切に反映しない可能性があるため、クエリへの関連性だけではこの側面を十分に表現できないかもしれドキュメントの有用性をより包括的に評価する手段としてこの効果を活用することができますが、生成品質を中心としたフォーマルかつ厳格なランキング評価メトリクスはまだ定義されていない。
- テキスト生成の評価
- LLMsのIRでの広範な適用により、パッセージや回答の生成性能を効果的に評価するための新しい評価戦略が急務となっている。
- 従来のテキスト生成の評価メトリクスにはいくつかの制約がある:
- 語彙的一致に依存
- BLEUやROUGEなどの方法は、生成された出力の品質を主にn-gramの一致に基づいて評価する。このアプローチは語彙の多様性や文脈の意味を考慮できない。その結果、モデルは創造的で新しいコンテンツを生成するよりも、一般的なフレーズや文の構造を生成する傾向があるかもしれない。
- 微妙な違いに対する感度不足
- 既存の評価方法は、生成された出力の微妙な違いに対して感度不足かもしれない。たとえば、生成された出力がリファレンス回答とわずかな意味的違いを持つ場合でも、従来の方法ではこれら微妙な違いを見落とす可能性がある。
- 事実性の評価能力の欠如
- LLMsは「ハルシネーション」の問題を起こしやすいことがある。ハルシネーションしたテキストは語彙の使用、文の構造、パターンなどでオラクルテキスト(御託宣・信託の文章)に非常に似ているが、事実ではない内容を含んでいる。既存の方法ではこのような問題を識別するのが難しい一方、知識ベースやリファレンステキストなどの追加の知識源を組み込むことで、この課題に対処するのに役立つ可能性がある。
8 CONCLUSION
- このサーベイでは、LLMsがIRに及ぼす変革的な影響をさまざまな側面から詳細に探究した。既存のアプローチを、それらの機能に基づいて次のカテゴリに整理した:
- クエリの書き換え(query rewriting)、取得(retrieval)、再ランキング(reranking)、およびreaderモジュール
- クエリの書き換えの領域では、LLMsは曖昧なクエリや多面的なクエリを理解し、意図の識別の精度を向上させる効果を示した。取得の文脈では、LLMsはクエリとドキュメントのより微妙なマッチングを可能にし、文脈も考慮に入れて取得の精度を向上させた。再ランキングの領域では、LLMsを活用したモデルは、結果の再順序付け時により細かい言語的ニュアンスを考慮した。IRシステムへのreaderモジュールの統合は、文書リストではなく包括的な応答を生成する大きな一歩。
- LLMsをIRシステムに統合することで、ユーザーが情報と知識と関わる方法に根本的な変化をもたらした。クエリの書き換えから取得、再ランキング、readerモジュールまで、LLMsはIRプロセスの各側面を高度な言語理解、意味表現、文脈に敏感な処理で豊かにした。この分野が進化し続ける中で、LLMsのIRにおける旅路は、より個別化され、正確でユーザーセントリックな検索体験を特徴とする未来を予示している。
- このサーベイは、LLMsをさまざまな情報検索コンポーネントに適用する最近の研究を見直すことに焦点を当てている。
- しかし、LLMsの登場によってもたらされるもっと大きな問題は、LLMsの時代に従来のIRフレームワークが必要かどうかということ。
- たとえば、従来のIRは、発行されたクエリに関連する文書のランキングリストを返すことを目指している。しかし、生成言語モデルの発展は、新しいパラダイムを導入した:
- 入力の質問に対する回答の直接生成。
- さらに、最近の展望論文によれば、IRは多様なシステムにおける基本的なサービスに進化する可能性がある。
- 将来のIRには新たな多くの課題があることが示唆されている。