Databricks生成AIクックブック - ステップ3: ステークホルダーのフィードバックから評価セットを作成

Last updated at 2024-06-26Posted at 2024-06-24

本書は著者が手動で翻訳したものであり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

Databricks生成AIクックブックのコンテンツです。

ステップ3: ステークホルダーのフィードバックから評価セットを作成

想定時間: 10-60分

ステークホルダーによって提供されるレスポンスの品質によって時間が変動します。レスポンスが整理されておらず、不適切なクエリーが多く含まれている場合、データのフィルタリングとクリーニングに多くの時間を必要とします。

コードレポジトリ
こちらからこのセクションで参照しているすべてのサンプルコードにアクセスすることができます。

このステップでは、レビューアプリを用いてステークホルダーが提供したフィードバックを用いて評価セットを組み上げます。質問だけで評価セットを組み立てられるので、ステークホルダーがフィードバックを提供しなくても、アプリとチャットするだけで以下のステップに進めることができることに注意して下さい。

エージェント評価セットのスキーマを理解するにはドキュメントをご覧ください。これらのフィールドは以下で参照されます。

このステップの最後には、以下を含む評価セットを手に入れることができます:

👍のあるリクエスト:
- request: ユーザーによる入力
- expected_response: ユーザーがレスポンスを編集した場合、こちらが使用されます。そうでない場合にはnullになります。
👎のあるリクエスト:
- request: ユーザーによる入力
- expected_response: ユーザーがレスポンスを編集した場合、こちらが使用されます。そうでない場合にはnullになります。
👍や👎が無いなどフィードバックのないリクエスト
- request: ユーザーによる入力

上の全てにおいて、retrieved_contextのチャンクに👍した場合には、チャンクのdoc_uriが質問のexpected_retrieved_contextに含まれます。

重要
スタートする際には少なくとも30の質問を評価セットに含めることをお勧めします。どのような評価セットが"良い"のかを学ぶには、評価セットのディープダイブをご覧ください。

04_create_evaluation_setノートブックを開き、Run Allを押します。
含まれているデータを理解するために評価セットを調査します。あなたの評価セットに代表的で困難な質問のセットが含まれていることを検証する必要があります。必要に応じて評価セットを調整します。
デフォルトでは、00_global_configノートブックのEVALUATION_SET_FQNに設定されたDeltaテーブルに評価セットが保存されます。

次のステップ: 評価セットを入手したので、POCアプリの品質/コスト/レーテンシーを評価するために活用します。