4.3. Enabling Measurement: Supporting Infrastructure — Databricks Generative AI Cookbook [2024/6/24時点]の翻訳です。
本書は著者が手動で翻訳したものであり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricks生成AIクックブックのコンテンツです。
4.3. 計測の実現: サポートするインフラストラクチャ
品質の計測は簡単なものではなく、インフラストラクチャに対する大きな投資を必要とします。このセクションでは、成功するために何が必要なのか。どのようにDatabricksではそれらのコンポーネントを提供しているのかの詳細を説明します。
詳細なトレースのロギング。 あなたのRAGアプリケーションのロジックのコアにあるのは、チェーンに含まれる一連のステップです。品質を評価、デバッグするためには、チェーンの入力と出力、チェーンのそれぞれのステップと関連する入力と出力を追跡する仕組みを実装する必要があります。配備する仕組みは開発とプロダクションで同じように動作すべきです。
Databricksでは、MLflow Tracingがこの機能を提供します。MLflow Traceのロギングによって、プロダクションにあるあなたのコードを計測し、開発とプロダクション環境で同じトレースを取得することができます。プロダクションのトレースは、推論テーブルの一部として記録されます。
ステークホルダーのレビューUI。 多くの場合、あなたは開発者として、あなたが開発しようとしているアプリケーションのコンテンツに対するドメインの専門家ではありません。あなたのアプリケーションのアウトプットの品質を評価できる人間の専門家からフィードバックを収集するために、アプリケーションの初期バージョンを操作し、詳細なフィードバックを提供できるインタフェースが必要となります。さらに、ステークホルダーが品質を評価できるようにするために、固有のアプリケーションのアウトプットをロードする手段を必要とします。
このインタフェースでは、アプリケーションのアウトプットと関連するフィードバックを構造化された形で追跡し、完全なアプリケーションのトレースと詳細なフィードバックをデータテーブルとして格納する必要があります。
Databricksでは、Agent Evaluation Review Appがこの機能を提供します。
品質 / コスト / レーテンシーのメトリックのフレームワーク。 あなたのチェーンとエンドツーエンドのアプリケーションのそれぞれのコンポーネントの品質を包括的に計測するメトリクスを定義する方法を必要とします。理想的には、このフレームワークは、カスタマイズ性をサポートすることに加え、すぐに利用できる標準的なメトリクスのスイートを提供するので、あなたのビジネス固有の特定の観点をテストするメトリクスを追加することができます。
Databricksでは、Mosaic AI Agent Evaluationが、必要な品質/コスト/レーテンシーのメトリクスのために、ホストされたLLM審判モデルを用いてすぐに利用できる実装を提供します。
評価のハーネス。 あなたの評価セットのすべての質問に対して、あなたのチェーンのアウトプットをクイックかつ効率的に取得し、適切なメトリクスに対するそれぞれのアウトプットを評価する手段を必要とします。このハーネスは、品質を改善しようとするすべての実験のあとに評価を実行することになるので、可能な限り効率的であるべきです。
Databricksでは、Mosaic AI Agent EvaluationにMLflowにインテグレーションされた評価ハーネスを提供しています。
評価セットの管理。 あなたの評価セットは生きており、アプリケーション開発、プロダクションのライフサイクルを通じて繰り返し更新される一連の質問となります。
Databricksでは、あなたの評価セットをDeltaテーブルとして管理することができます。MLflowで評価する際、Mlflowが使用した評価セットのバージョンのスナップショットを自動で記録します。
実験追跡フレームワーク。 あなたのアプリケーション開発の過程では、数多くの様々な実験をトライすることになります。実験追跡フレームワークによって、それぞれの実験を記録し、他の実験に対するメトリクスを追跡することができます。
Databricksでは、MLflowは実験追跡機能を提供します。
チェーンのパラメーター化フレームワーク。 トライする多数の実験では、チェーンのコードの定数を保持しつつも、コードで使用される様々なパラメーターで試行錯誤する必要があります。これを実現するためのフレームワークを必要とします。
Databricksでは、MLflow model configurationがこの機能を提供します。
オンラインモニタリング。 デプロイしたら、アプリケーションの健康状態と現行の品質/コスト/レーテンシーを監視する方法を必要とします。
Databricksでは、モデルサービングがアプリケーションの健康状態のモニタリングを提供し、レイクハウスモニタリングが最新状況のダッシュボードと品質/コスト/レーテンシーを監視します。
- 目次
- 前のセクション: 4.2. パフォーマンスの評価: メトリクスが重要です
- 次のセクション: 5. 評価ドリブンの開発ワークフロー