Step 3: Curate an Evaluation Set from stakeholder feedback — Databricks Generative AI Cookbook [2024/6/25時点]の翻訳です。
本書は著者が手動で翻訳したものであり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricks生成AIクックブックのコンテンツです。
ステップ3: ステークホルダーのフィードバックから評価セットを作成
想定時間: 10-60分
ステークホルダーによって提供されるレスポンスの品質によって時間が変動します。レスポンスが整理されておらず、不適切なクエリーが多く含まれている場合、データのフィルタリングとクリーニングに多くの時間を必要とします。
概要と期待される成果
このステップでは、レビューアプリを用いてステークホルダーが提供したフィードバックを用いて評価セットを組み上げます。質問だけで評価セットを組み立てられるので、ステークホルダーがフィードバックを提供しなくても、アプリとチャットするだけで以下のステップに進めることができることに注意して下さい。
エージェント評価セットのスキーマを理解するにはドキュメントをご覧ください。これらのフィールドは以下で参照されます。
このステップの最後には、以下を含む評価セットを手に入れることができます:
- 👍のあるリクエスト:
-
request
: ユーザーによる入力 -
expected_response
: ユーザーがレスポンスを編集した場合、こちらが使用されます。そうでない場合にはnullになります。
-
- 👎のあるリクエスト:
-
request
: ユーザーによる入力 -
expected_response
: ユーザーがレスポンスを編集した場合、こちらが使用されます。そうでない場合にはnullになります。
-
- 👍や👎が無いなどフィードバックのないリクエスト
-
request
: ユーザーによる入力
-
上の全てにおいて、retrieved_context
のチャンクに👍した場合には、チャンクのdoc_uri
が質問のexpected_retrieved_context
に含まれます。
重要
スタートする際には少なくとも30の質問を評価セットに含めることをお勧めします。どのような評価セットが"良い"のかを学ぶには、評価セットのディープダイブをご覧ください。
要件
- ステークホルダーがPOCシステムを活用しフィードバックを提供した
- 以前のステップの全ての要件
手順
-
04_create_evaluation_set
ノートブックを開き、Run Allを押します。 - 含まれているデータを理解するために評価セットを調査します。あなたの評価セットに代表的で困難な質問のセットが含まれていることを検証する必要があります。必要に応じて評価セットを調整します。
- デフォルトでは、00_global_configノートブックの
EVALUATION_SET_FQN
に設定されたDeltaテーブルに評価セットが保存されます。
次のステップ: 評価セットを入手したので、POCアプリの品質/コスト/レーテンシーを評価するために活用します。
- 目次
- 前のセクション: ステップ2: ステークホルダーのフィードバックを収集するPOCのデプロイ
- 次のセクション: ステップ4: POCの品質の評価