Amazon BedrockAdvent Calendar 2024

LLM as a Judgeを活用！Knowledge Base EvaluationでのRAG評価

Posted at 2024-12-25

1 はじめに

AWS BedrockにLLM as a JudgeでカスタムモデルやRAGを評価する機能が新規追加された
本記事では新規追加された機能を用いて、Bedrock Knowledge Basesで構築したRAGをLLM as a Judgeにて評価し、評価結果をマネージドコンソール上でグラフィカルに確認する

Bedrock Knowledge baseで構築したナレッジベース/RAGを評価する機能
ナレッジベースの評価にLLM as a Judgeを活用！
評価対象として2つのいずれかから選択
1. Retrieval only: ナレッジベースの検索結果を評価
2. Retrieval and response generation: ナレッジベースの検索結果とテキスト生成結果を評価
評価項目

Eval type	Metrics	Metric definition
Quality	Correctness	質問に対する回答の正確性を評価
	Completeness	質問のあらゆる側面に対する回答の的確さと網羅性を評価
	Helpfulness	質問への回答として、回答が全体的にどの程度役立つかを評価
	Logical coherence	回答に論理的な欠陥、矛盾、または不一致がないかを評価
	Faithfulness	検索されたテキストに関して、回答がハルシネーションしていないかを評価
Responsible AI	Harmfulness	ヘイト、侮辱、暴力、性的表現などの有害なコンテンツを評価
	Stereotyping	回答における個人または集団に対する一般的な回答かを評価
	Refusal	回答が質問に対してどの程度曖昧かを評価

Bedrock Knowledge Basesで構築したナレッジベースをKnowledge Base Evaluationで評価
ナレッジベースは2種類用意し、同じテストデータセットでの評価結果をコンソール上で比較
1. Hierarchical chunking
2. Semantical chunking
  - ※チャンキング戦略以外の条件は一致
Retrieval and response generationで全8項目を評価
RAGのGenerationにはClaude Sonnet 3を使用
LLM as a Judgeでの評価モデルにはClaude Haiku 3を利用

Bedrockの左メニューバーの「Inference and Assessment」から「Evaluations」を選択
Evaluations画面の「Knowledge Bases」タブを選択
「Knowledge Base evaluations」の「Create」を選択
評価詳細入力欄に“評価名”、“評価概要”、“評価モデル”を入力
ナレッジベース詳細入力欄で評価対象となるナレッジベース、評価対象種別、モデルを選択
- モデルを選択するのはevaluation typeかRetrieval and response generationのときのみ
評価対象となるメトリクスを選択
- Evaluation typeによって選択可能項目が異なるので注意
「Dataset for evaluation」でS3にある評価データセットを指定
- 評価データセットのフォーマットは公式ドキュメント「Creating a prompt dataset for Retrieve and generate evaluation jobs」参照
評価結果を格納するS3 URIを指定
評価を実行するサービスロールを指定
画面最下部の「Create」ボタンを押し、評価ジョブを作成

Knowledge Base evaluation画面最下部の評価ジョブリストでStatusが「Completed」になっていることを確認
- 評価完了まで10分以上かかるケースもあります
1つの評価ジョブ結果を確認する際は「Evaluation name」のリンクを選択
2つの評価ジョブを比較したいときは比較したい評価ジョブ左端のチェックボックスにチェックをつけ、「Compare」ボタンを選択

画面上部では選択した評価メトリクスの結果が確認可能
- Quality metricsは0~1の値をとり、1に近いほど評価スコアは高い
- Responsible AI metricsはは0~1の値をとり、1に近いほど有害性が高い (0に近い方が良い)

画面下部では評価メトリクスごとに結果をグラフィカルに確認可能
- 画像はCompletenessの例
- テストケースは2つのため、2つの評価結果が出力されている

re:Invent 2024開催前日に発表されたKnowledge Base Evaluationを用いて、Knowledge Baseの定量的な評価を実施しました。

同様の評価はRagasなどを用いて、これまでも実現できましたが、事前に評価ツールなどの準備が必要でした。今回の機能追加でAWSの1機能としてLLM as a Judgeによる定量的評価ができるため、AWS上にある既存のKnowledge Basesを簡単に評価することができるようになりました。