RAGの品質評価
最近、LLMコミュニティは自動評価の利用を探求しており、多くの研究者や企業がLLMを使用して自身のLLMアプリケーションの出力を評価しています。
DatabricksがGPT-3.5とGPT-4を評価として使用して、自社のチャットボットアプリケーションを評価した実践は、LLMを自動評価ツールとして使用することが効果的であることを示唆しています。
この方法がRAGベースのアプリケーションを効率的かつコスト効果的に評価することもできるでしょう。
評価のためのフレームワーク
RAG評価フレームワークの分野では、RAGAS、ARESが比較的新しいものです。
これらの評価の主な焦点は、回答の信頼性、回答の関連性、およびコンテキストの関連性という3つの主要な指標にあります。さらに、オープンソースライブラリであるTruLensも同様の評価モードを提供しています。
これらのフレームワークはすべて、評価のためにLLMを評価者として使用しています。
RAGAS(Retrieval-Augmented Generation Assessment System)
RAGASは、リトリーバルシステムの関連性の高いキーコンテキスト段落を特定する能力、LLMがこれらの段落を忠実に使用する能力、および生成自体の品質を考慮した評価フレームワークです。
RAGASは、手書きのシンプルなプロンプトに基づいており、これらのプロンプトを使用して、回答の信頼性、回答の関連性、コンテキストの関連性という品質の3つの側面を完全に自動化された方法で測定します。
このフレームワークでは、OpenAI APIを通じて利用可能なgpt3.5-turbo-16kモデルを使用して、すべてのプロンプトを評価します。
回答の信頼性の評価:
LLMを使用して回答を個々のステートメントに分解し、それぞれのステートメントがコンテキストと一致するかどうかを検証します。最終的に、サポートされているステートメントの数と総ステートメント数を比較することにより、「信頼性スコア」が計算されます。
回答の関連性の評価:
LLMを使用して潜在的な質問を生成し、これらの質問と元の質問との類似性を計算します。
回答関連性スコアは、生成されたすべての質問の元の質問への平均類似度によって導き出されます。
コンテキストの関連性の評価:
LLMを使用して質問に直接関連する文を抽出し、これらの文の数をコンテキスト内の総文数との比率としてコンテキスト関連性スコアを使用します。
これらの評価方法により、RAGASは、リトリーバル拡張生成のパフォーマンスを総合的かつ精密に評価することを目指しています。これにより、研究者や開発者はRAGシステムのさまざまな側面を評価し、改善のための洞察を得ることができます。
ARES(Augmented Retrieval Evaluation System)
ARESは、コンテキストの関連性、回答の信頼性、および回答の関連性の3つの側面でRAGシステムのパフォーマンスを自動的に評価することを目指しています。
RAGASは手書きのシンプルなプロンプトに基づく新しい評価フレームワークであり、新しいRAG評価設定に対する適応性が限られているため、ARESの作業の重要性の一つです。
ARESは、少量の手動で注釈付けされたデータと合成データを使用し、評価のコストを削減し、予測駆動推論(PDR)を使用して統計的な信頼区間を提供し、評価の精度を向上させます。
アルゴリズムの原則
合成データセットの生成: ARESは最初に、ターゲットコーパスの文書から言語モデルを使用して合成の質問と回答を生成し、肯定的および否定的なサンプルを作成します。
LLM裁判官の準備:
次に、ARESは合成データセットを使用して軽量言語モデルをファインチューニングし、コンテキストの関連性、回答の信頼性、および回答の関連性を評価するためにトレーニングします。
信頼区間を使用したRAGシステムのランキング:
最後に、ARESはこれらの裁判官モデルを適用してRAGシステムをスコアリングし、PPI(Predictive-Driven Reasoning)メソッドを使用して手動で注釈付けされた検証セットと組み合わせ、信頼区間を生成し、RAGシステムのパフォーマンスを確実に推定します。
TruLens