Databricks生成AIクックブック - ステップ4: POCの品質の評価

Last updated at 2024-06-26Posted at 2024-06-24

本書は著者が手動で翻訳したものであり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

Databricks生成AIクックブックのコンテンツです。

ステップ4: POCの品質の評価

想定時間: 5-60分

あなたの評価セットの質問の数によって時間は変動します。100の質問に対しては、評価は約5分を要します。

コードレポジトリ
こちらからこのセクションで参照しているすべてのサンプルコードにアクセスすることができます。

このステップでは、あなたのPOCアプリを評価し、ベースラインの品質/コスト/レーテンシーを明確にするために評価セットを活用します。この評価結果は、すべての品質問題の根本原因の分析のために活用されます。

Mosaic AI Agent Evaluationを用いて評価が行われ、このクックブックのメトリクスセクションで説明されている、品質、コスト、レーテンシーに対する全ての側面が包括的に評価されます。

評価セットのそれぞれの質問に対する集計メトリクスと評価結果はMLflowに記録されます。詳細は、評価結果のドキュメントをご覧ください。

注意
評価結果が品質に対する要件を満たしている場合、デプロイメントセクションに直接スキップできます。POCアプリケーションはDatabricks上に構築されていますので、スケーラブルでプロダクションレディのREST APIにデプロイする準備はできています。

次のステップ: POC品質のベースラインの評価を用いて、すべての品質問題の根本原因を特定し、アプリを改善するためにこれらの問題を繰り返し解決します。