LoginSignup
0
0
生成AIに関する記事を書こう!
Qiita Engineer Festa20242024年7月17日まで開催中!

Databricks生成AIクックブック - ステップ3: ステークホルダーのフィードバックから評価セットを作成

Last updated at Posted at 2024-06-24

Step 3: Curate an Evaluation Set from stakeholder feedback — Databricks Generative AI Cookbook [2024/6/25時点]の翻訳です。

本書は著者が手動で翻訳したものであり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

Databricks生成AIクックブックのコンテンツです。

ステップ3: ステークホルダーのフィードバックから評価セットを作成

想定時間: 10-60分

ステークホルダーによって提供されるレスポンスの品質によって時間が変動します。レスポンスが整理されておらず、不適切なクエリーが多く含まれている場合、データのフィルタリングとクリーニングに多くの時間を必要とします。

コードレポジトリ
こちらからこのセクションで参照しているすべてのサンプルコードにアクセスすることができます。

概要と期待される成果

このステップでは、レビューアプリを用いてステークホルダーが提供したフィードバックを用いて評価セットを組み上げます。質問だけで評価セットを組み立てられるので、ステークホルダーがフィードバックを提供しなくても、アプリとチャットするだけで以下のステップに進めることができることに注意して下さい。

エージェント評価セットのスキーマを理解するにはドキュメントをご覧ください。これらのフィールドは以下で参照されます。

このステップの最後には、以下を含む評価セットを手に入れることができます:

  1. 👍のあるリクエスト:
    • request: ユーザーによる入力
    • expected_response: ユーザーがレスポンスを編集した場合、こちらが使用されます。そうでない場合にはnullになります。
  2. 👎のあるリクエスト:
    • request: ユーザーによる入力
    • expected_response: ユーザーがレスポンスを編集した場合、こちらが使用されます。そうでない場合にはnullになります。
  3. 👍や👎が無いなどフィードバックのないリクエスト
    • request: ユーザーによる入力

上の全てにおいて、retrieved_contextのチャンクに👍した場合には、チャンクのdoc_uriが質問のexpected_retrieved_contextに含まれます。

重要
スタートする際には少なくとも30の質問を評価セットに含めることをお勧めします。どのような評価セットが"良い"のかを学ぶには、評価セットのディープダイブをご覧ください。

要件

  • ステークホルダーがPOCシステムを活用しフィードバックを提供した
  • 以前のステップの全ての要件

手順

  1. 04_create_evaluation_setノートブックを開き、Run Allを押します。
  2. 含まれているデータを理解するために評価セットを調査します。あなたの評価セットに代表的で困難な質問のセットが含まれていることを検証する必要があります。必要に応じて評価セットを調整します。
  3. デフォルトでは、00_global_configノートブックのEVALUATION_SET_FQNに設定されたDeltaテーブルに評価セットが保存されます。

次のステップ: 評価セットを入手したので、POCアプリの品質/コスト/レーテンシーを評価するために活用します。

はじめてのDatabricks

はじめてのDatabricks

Databricks無料トライアル

Databricks無料トライアル

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0