4. Evaluating RAG quality — Databricks Generative AI Cookbook [2024/6/23時点]の翻訳です。
本書は著者が手動で翻訳したものであり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricks生成AIクックブックのコンテンツです。
4. RAGの品質の評価
古い諺"計測できないことは管理できない"は、RAGを含む全ての生成AIアプリケーションの文脈においても信じられないくらい当てはまります。あなたの生成AIアプリケーションが高品質で正確なレスポンスを提供するためには、あなたのユースケースにおいて"品質"が何であるのかを定義し、計測できるようにならなくてはいけません。
このセクションでは、評価における3つの重要なコンポーネントにディープダイブします:
4.1. "品質"の定義: 評価セット
4.2. パフォーマンスの評価: メトリクスが重要です
4.3. 計測の実現: サポートするインフラストラクチャ
- 目次
- 前のセクション: 3.2. 収集、拡張、生成(RAGチェーン)
- 次のセクション: 4.1. "品質"の定義: 評価セット