4.1. Defining “quality”: evaluation sets — Databricks Generative AI Cookbook [2024/6/23時点]の翻訳です。
本書は著者が手動で翻訳したものであり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricks生成AIクックブックのコンテンツです。
4.1. "品質"の定義: 評価セット
品質を計測するためには、キュレーションされたクエリーの代表的なセットと正解の回答、(オプション)収集されるべきサポート文書から構成される人間がラベル付けした評価セットを作成することをお勧めします。評価セットが正確にエンドユーザーの期待と要件を反映するように、このプロセスでは人間のインプットが重要となります。
人間によるラベルのキュレーションは時間を要するプロセスです。質問のみを含む評価セットの作成からスタートし、後で正解のレスポンスを追加することができます。Mosaic AI Agent Evaluationでは、正解データなしにあなたのチェーンの品質を評価できますが、正解データを利用できるのであれば、回答の正確性のような追加のメトリクスを計算します。
優れた評価セットは以下の特性を備えています:
- 代表的: 当該アプリケーションがプロダクション環境で直面するであろう様々な種類のリクエストを正確に反映しています。
- 困難: このセットは、モデルの能力を効果的にテストするために困難かつ多岐にわたるケースを含むべきです。理想的には、プロンプトインジェクションや、LLMに不適切なレスポンスを生成させようとする質問のように、攻撃的な例を含むことになります。
- 継続的に更新される: このセットには、当該アプリケーションがプロダクションでどのように使用されるのか、インデックスされるデータが変化する特性、アプリケーションにおけるいかなる変更を反映するために継続的にアップデートされるべきです。
Databricksではあなたの評価セットは最低でも30の質問になること、理想的には100-200であることをお勧めします。ベストな評価セットは時間と共に数千の質問を保持することになるでしょう。
過学習を避けるために、あなたの評価セットをトレーニング、テスト、検証セットに分割することをお勧めします:
- トレーニングセット: 質問の約70%。最もパフォーマンスの高いものを特定するための全ての実験を評価する初回の試験で使用されます。
- テストセット: 質問の約20%。トレーニングセットで最もパフォーマンスの高かった実験を評価するために使用されます。
- 検証セット: 質問の約10%。実験をプロダクションにデプロイする前の最終の検証チェックで使用されます。
Mosaic AI Agent Evaluationは、アプリケーションのアウトプットに対して、あなたのステークホルダーがフィードバックを提供できるようにするためのWebベースのチャットインタフェースを提供することで、評価セットの作成を支援します。チェーンのアウトプットとステークホルダーのフィードバックはDeltaテーブルに保存され、評価セットにキュレーションすることができます。サンプルコードを用いたハンズオンのハウツーのためのこのクックブックの実装セクションにある評価セットのキュレーションをご覧ください。
- 目次
- 前のセクション: 4. RAGの品質の評価
- 次のセクション: 4.2. パフォーマンスの評価: メトリクスが重要です