Databricks生成AIクックブック - ステップ5: 品質問題の根本原因の特定

Last updated at 2024-06-26Posted at 2024-06-25

Step 5: Identify the root cause of quality issues — Databricks Generative AI Cookbook [2024/6/25時点]の翻訳です。

本書は著者が手動で翻訳したものであり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

Databricks生成AIクックブックのコンテンツです。

ステップ5: 品質問題の根本原因の特定

想定時間: 60分

要件

MLflowであなたのPOCの評価セットが利用できる
- これまでのステップを実行しているのであれば当てはまっています！
以前のステップの全ての要件

コードレポジトリ
こちらからこのセクションで参照しているすべてのサンプルコードにアクセスすることができます。

概要

根本原因の主要な2つのカテゴリーは収集と生成です。最初にどこにフォーカスすべきかを特定するために、あなたのアプリの品質にインパクトを与える最頻出の根本原因を特定するために、以前のステップで実行したMosaic AI Agent EvaluationのLLM審判のアウトプットを活用します。

あなたの評価セットのそれぞれの行は以下のようにタグ付けされることになります:

全体的な評価: か
根本原因: Improve RetrievalかImprove Generation
根本原因の理由付け: なぜ根本原因として選ばれたのかに関する簡単な説明

手順

このアプローチは、expected_responseに格納されている質問に対する正解のレスポンスがあなたの評価セットに含まれているかどうかに依存します。expected_responseが利用できる場合には、以下の最初の表を使ってください。そうでない場合には、2番目の表を使ってください。

B_quality_iteration/01_root_cause_quality_issuesノートブックを開きます。
expected_responseがあるか無いかに応じて、あなたのユースケースに適したセルを実行します。
あなたのアプリケーションで際頻出の根本原因を特定するために出力テーブルをレビューします。
それぞれの根本原因に対して、さらにデバッグを行い、潜在的な修正案を特定するために以下のステップに従ってください。
- 収集品質のデバッグ
- 生成品質のデバッグ

利用可能な正解データを用いた根本原因分析

注意
それぞれの質問で収集されるべきドキュメントを示す人間によってラベル付けされた正解データがある場合には、オプションとしてretrieval/llm_judged/chunk_relevance/precision/averageをretrieval/ground_truth/document_recall/averageで置き換えることができます。

適切なチャンクの精度	事実への立脚度	正しさ	クエリーへの適切性	問題の要約	根本原因
<50%	❌	❌	❌	収集が貧弱。	`Improve Retrieval`
<50%	❌	❌	✅	LLMは適切なレスポンシスを生成しているが収集が貧弱。例えば、LLMが解答の際に収集を無視し、トレーニングした知識を使うなど。	`Improve Retrieval`
<50%	❌	✅	✅か❌	収集の品質が貧弱にもかかわらずLLMが適切な回答を得ている。	`Improve Retrieval`
<50%	✅	❌	❌	レスポンスは収集結果に立脚しているが収集が貧弱。	`Improve Retrieval`
<50%	✅	❌	✅	収集コンテキストに立脚した適切なレスポンスであるが、収集結果が期待される回答に関連づけられていない可能性あり。	`Improve Retrieval`
<50%	✅	✅	✅か❌	LLMが正しい回答を生成するのに十分な情報を収集できている。🎉	N/A
>50%	❌	❌	✅か❌	ハルシネーション	`Improve Generation`
>50%	❌	✅	✅か❌	ハルシネーション、正しいがコンテキストにない詳細を生成	`Improve Generation`
>50%	✅	❌	❌	収集は問題ないが、LLMが適切なレスポンスを生成しない。	`Improve Generation`
>50%	✅	❌	✅	収集は問題なく適切なレスポンスだが間違っている。	`Improve Generation`
>50%	✅	✅	✅	問題なし！ 🎉	N/A

利用可能な正解データを用いない根本原因分析

適切なチャンクの精度	事実への立脚度	クエリーへの適切性	問題の要約	根本原因
<50%	❌	❌	収集品質が貧弱	`Improve Retrieval`
<50%	❌	✅	収集品質が貧弱	`Improve Retrieval`
<50%	✅	❌	レスポンスは収集結果に立脚しているが、収集が貧弱。	`Improve Retrieval`
<50%	✅	✅	適切なレスポンスは収集されたコンテキストに立脚しているが、収集が貧弱。	`Improve Retrieval`
>50%	❌	❌	ハルシネーション	`Improve Generation`
>50%	❌	✅	ハルシネーション	`Improve Generation`
>50%	✅	❌	収集には問題なく、収集結果に立脚しているが、LLMが適切なレスポンスを生成しない。	`Improve Generation`
>50%	✅	✅	収集に問題なく、レスポンスも適切。回答が正しいかどうかを判断するための正解データを収集しましょう。	なし

目次
前のセクション: ステップ4: POCの品質の評価
次のセクション: 収集品質のデバッグ

はじめてのDatabricks

Databricks無料トライアル

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up