Step 4: Evaluate the POC’s quality — Databricks Generative AI Cookbook [2024/6/25時点]の翻訳です。
本書は著者が手動で翻訳したものであり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricks生成AIクックブックのコンテンツです。
ステップ4: POCの品質の評価
想定時間: 5-60分
あなたの評価セットの質問の数によって時間は変動します。100の質問に対しては、評価は約5分を要します。
概要と期待される成果
このステップでは、あなたのPOCアプリを評価し、ベースラインの品質/コスト/レーテンシーを明確にするために評価セットを活用します。この評価結果は、すべての品質問題の根本原因の分析のために活用されます。
Mosaic AI Agent Evaluationを用いて評価が行われ、このクックブックのメトリクスセクションで説明されている、品質、コスト、レーテンシーに対する全ての側面が包括的に評価されます。
評価セットのそれぞれの質問に対する集計メトリクスと評価結果はMLflowに記録されます。詳細は、評価結果のドキュメントをご覧ください。
要件
- 評価セットが利用可能
- 以前のステップの全ての要件
手順
- 選択したPOCディレクトリの
05_evaluate_poc_quality
ノートブックを開き、Run Allを押します。 - MLflow絵お用いてノートブックにおける評価の結果を調査します。
注意
評価結果が品質に対する要件を満たしている場合、デプロイメントセクションに直接スキップできます。POCアプリケーションはDatabricks上に構築されていますので、スケーラブルでプロダクションレディのREST APIにデプロイする準備はできています。
次のステップ: POC品質のベースラインの評価を用いて、すべての品質問題の根本原因を特定し、アプリを改善するためにこれらの問題を繰り返し解決します。
- 目次
- 前のセクション: ステップ3: ステークホルダーのフィードバックから評価セットを作成
- 次のセクション: ステップ5: 品質問題の根本原因の特定