0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Amazon Bedrock Knowledge Bases で RAG の評価機能

Last updated at Posted at 2025-01-28

2024/12現在 パブリックプレビュー

内容

AWS re:Invent 2024 で発表があった Amazon Bedrock Knowledge Bases で RAG の評価機能に対応したことんについてシンプルに纏めます。

  • アップデート内容はタイトル通り

設定

前提

  • ナレッジベースを構築済みであること

評価対象となるファイルの準備

評価対象となるファイルは JSONL ファイルである必要があります。
次の通り期待される回答内容質問内容を記載します。

bedrock-kb.jsonl
{"conversationTurns":[{"referenceResponses":[{"content":[{"text":"AWS CLIをインストールする方法は以下の通りです:\n\ncurl コマンドを使用して、AWS CLIのインストールファイルをダウンロードします。\n\nダウンロードしたzipファイルを解凍します。\n\nインストールスクリプトを実行します。\n\n具体的なコマンドは以下の通りです:\n\n$ curl \"https://awscli.amazonaws.com/awscli-exe-linux-aarch64.zip\" -o \"awscliv2.zip\"\n\nunzip awscliv2.zip\n\nsudo ./aws/install\n\nこれにより、AWS CLIがシステム全体にインストールされます。\n\nまた、AWS CLIの現在のインストールを更新する場合は、以下のコマンドを使用します:\n\n$ curl \"https://awscli.amazonaws.com/awscli-exe-linux-aarch64.zip\" -o \"awscliv2.zip\"\n\nunzip awscliv2.zip\n\nsudo ./aws/install --bin-dir /usr/local/bin --install-dir /usr/local/aws-cli --update\n\nなお、インストール方法には他にも、特定のバージョンをインストールする方法、ソースからビルドしてインストールする方法、Amazon ECR Public/Dockerを使用する方法、AWS CloudShellを使用する方法などがあります。"}]}],"prompt":{"content":[{"text":"AWS CLIのインストール方法。"}]}}]}

これを S3 バケットに配置しておきます。

CORS の設定

S3 バケットが クロスオリジンリソース共有 (CORS) 許可で設定されている必要がありますので、ドキュメント通り設定しておきます。

Evaluations の設定

[Evaluations] から [Knowledge Bases] より「Create」をクリック。
スクリーンショット 2025-01-28 0.42.24.png

どのモデルで評価をするかを [Evaluator model] で、「Claude 3.5 Sonnet」を選択。
スクリーンショット 2025-01-28 0.43.41.png

[Choose a Knowledge Base] に作成済みの「ナレッジベース」、
[Knowledge Base evaluation type] は、「Retrieval and Response generation」を選択。なお、「Retrieval only」での評価も可能です。
[Response generator model] には、「Claude 3.5 Sonnet」を使います。
スクリーンショット 2025-01-28 0.51.42.png

評価するためのメトリクスを選択します。生成AIで求められる一般的な評価項目です。

  • 品質
メトリクス 説明
有用性 質問に答える際の応答がどれだけ有用で総合的であるかを測定します。
正確さ 質問に対する回答がどれだけ正確であるかを測定します。
論理的一貫性 回答に論理的なギャップ、矛盾、または矛盾がないかどうかを測定します。
忠実 応答の事実上の正確性と、応答が幻覚をどの程度回避できるかを測定します。
完全 質問のすべての部分に回答がどの程度完全であるかを測定します。
  • 責任あるAI
メトリクス 説明
有害 憎悪、侮辱、暴力を用いた反応がどれほど有害であるかを測定します。
拒否 質問に答えることを拒否する回答がどれだけ回避的であるかを測定します。
ステレオタイプ化 回答における個人またはグループに関する一般化された記述を測定します。

スクリーンショット 2025-01-28 21.22.26.png

[Dataset for evaluation]には評価対象とする S3 バケットの jsonl ファイルを選択します。

s3://<S3バケット名>/src/bedrock-kb.jsonl

[Results for evaluation]には評価結果を保存する S3 バケットを選択します。

s3://<S3バケット名>/dst

スクリーンショット 2025-01-28 21.46.24.png

「作成」しましたが、以下のエラーでそもそも作成ができない。。。

評価ジョブの作成中にエラーが発生しました
The system encountered an unexpected error during processing. Try your request again.`

色々確認してみたが原因不明。。。

CloudTril のログも確認してみたが、InternalServerException。。。

    "errorCode": "InternalServerException",
    "errorMessage": "The system encountered an unexpected error during processing. Try your request again.",

時間を空けてまた試してみたいと思います

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?