5. Evaluation-driven development workflow — Databricks Generative AI Cookbook [2024/6/24時点]の翻訳です。
本書は著者が手動で翻訳したものであり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricks生成AIクックブックのコンテンツです。
5. 評価ドリブンの開発ワークフロー
このセクションでは、高品質なRAGアプリケーションを構築、テスト、デプロイするためにDatabricksが推奨する開発ワークフロー: 評価ドリブン開発をウォークスルーします。このワークフローは、Mosaic研究チームの高品質RAGアプリケーションの構築、評価に関する推奨のベストプラクティスをベースとしています。あなたのビジネスにおいて品質が重要であれば、以下の評価ドリブンワークフローに従うことをお勧めします:
- 要件の定義
- 迅速なPOCにおけるステークホルダーフィードバックの収集
- POCの品質の評価
- 繰り返しの診断と品質問題の修正
- プロダクションへのデプロイ
- プロダクションのモニタリング
このクックブックの実装セクションでは、このワークフローのサンプルコードと実装ガイドを提供します。
評価ドリブンの開発には2つのコアコンセプトがあります:
-
メトリクス: 高品質が何を意味するのかを定義
毎年あなたがビジネスゴールを設定するのと同じように、あなたのユースケースにおいて高品質が何を意味するのかを定義する必要があります。Mosaic AI Agent Evaluationは、使用するN個の提案メトリクスを提供し、最も重要なものは精度と適切性です - RAGアプリケーションは正しい回答を提供していますか?
-
評価セット: メトリクスを客観的に計測
品質を客観的に計測するためには、質問人間によって検証された既知の回答を含む評価セットを必要とします。これは最初は恐ろしいものに見えるかもしれません。すぐに利用できる評価セットがない場合もあるでしょう。このガイドでは、開発プロセスをウォークスルーし、この評価セットを繰り返し改善します。
メトリクスと評価セットにフォーカスすることで、以下のメリットを提供します:
- 開発過程であなたのアプリケーションの品質を繰り返しかつ自信を持って改善することができます。変更が改善につながるのかどうかを推測する必要はありません。
- プロダクションにおけるアプリケーションの準備状況をビジネスステークホルダーとアラインすることが、より分かりやすいものになり、自信を持って "我々は自分たちのアプリケーションが、自身のビジネスにおいて最も重要な質問に適切に回答できることを知っています" と宣言することができます。
- 目次
- 前のセクション: 4.3. 計測の実現: サポートするインフラストラクチャ
- 次のセクション: Databricksノートブック