0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Deep Eval 評価指標一覧

Posted at

2025年9月28日時点のものをLLMにまとめてもらったものであるため、誤っている可能性があります。

ソースGitHub
https://github.com/confident-ai/deepeval

RAG (Retrieval-Augmented Generation)

指標名 (Metric Name) 説明 (Description)
AnswerRelevancyMetric 生成された回答が質問に対してどれだけ関連しているかを評価します。
FaithfulnessMetric 生成された回答が提供されたコンテキストにどれだけ忠実であるかを評価します。
ContextualPrecisionMetric 検索されたコンテキストの中で、回答生成に実際に関連のあったコンテキストの割合を評価します。
ContextualRecallMetric 回答生成に必要な情報が、検索されたコンテキストにどれだけ含まれているかを評価します。
ContextualRelevancyMetric 検索されたコンテキストが質問に対してどれだけ関連しているかを評価します。
HallucinationMetric 生成された回答に、コンテキストに含まれない情報(ハルシネーション)が含まれていないかを評価します。
RagasMetric RAG評価のOSSフレームワークであるRagasの指標を利用します。

要約 (Summarization)

指標名 (Metric Name) 説明 (Description)
SummarizationMetric 生成された要約が、元の文章の重要な情報を保持し、簡潔かつ正確であるかを評価します。

チャットボット・対話AI (Chatbot / Conversational AI)

指標名 (Metric Name) 説明 (Description)
ConversationCompletenessMetric 会話がユーザーの目的を達成するのに十分な情報を提供し、完結しているかを評価します。
TurnRelevancyMetric 対話の各ターンが、直前の会話の流れと関連しているかを評価します。
KnowledgeRetentionMetric 対話モデルが、過去の対話で得た知識を記憶し、活用できているかを評価します。
ConversationalGEvalMetric 対話形式のテストケースに対して、カスタマイズされた評価基準で評価します。
ConversationalDAGMetric 対話の流れをDAG(有向非巡回グラフ)として表現し、その構造や内容を評価します。

安全性と責任 (Safety & Responsibility)

指標名 (Metric Name) 説明 (Description)
BiasMetric 生成されたテキストに有害なバイアスが含まれていないかを評価します。
ToxicityMetric 生成されたテキストの有害性を評価します。
PIILleakageMetric 個人情報(PII)が漏洩していないかを評価します。
MisuseMetric モデルが悪用されるような不適切な応答をしないかを評価します。
NonAdviceMetric 専門的なアドバイスを求められた際に、資格がないにもかかわらず助言を行わないかを評価します。
RoleViolationMetric 指定された役割から逸脱した応答をしないかを評価します。
RoleAdherenceMetric 指定された役割を一貫して守れているかを評価します。

エージェント・ツール利用 (Agent & Tool Use)

指標名 (Metric Name) 説明 (Description)
ToolCorrectnessMetric エージェントがツールを正しく呼び出しているかを評価します。
ArgumentCorrectnessMetric ツールを呼び出す際の引数が正しいかを評価します。
TaskCompletionMetric 与えられたタスクを最後まで完了できたかの成功率を評価します。
MCPUseMetric 複数ターンにわたるタスクで、エージェントがその能力をどの程度活用できたかを評価します。
MultiTurnMCPUseMetric 複数ターンにわたるMCPの使用率を評価します。
MCPTaskCompletionMetric MCPを利用したタスクの完了率を評価します。

汎用・カスタム評価 (General Purpose / Custom)

指標名 (Metric Name) 説明 (Description)
GEval ユーザーが定義した独自の基準に基づいて、LLMによる評価を行います。
ArenaGEvalMetric 複数のモデルの出力を比較評価(アリーナ形式)します。
JSONCorrectnessMetric 生成された出力が、正しいJSON形式であるかを評価します。
PromptAlignmentMetric モデルの出力が、与えられたプロンプトの指示にどれだけ従っているかを評価します。
DAGMetric LLMの思考プロセスをDAGとして評価します。

マルチモーダル (Multimodal)

指標名 (Metric Name) 説明 (Description)
ImageCoherenceMetric 生成された画像が、プロンプトの内容と一貫しているかを評価します。
ImageEditingMetric 指示に基づいて画像が正しく編集されたかを評価します。
ImageHelpfulnessMetric 生成された画像が、ユーザーにとって有用であるかを評価します。
ImageReferenceMetric 生成された画像が、参照画像と関連しているかを評価します。
MultimodalAnswerRelevancyMetric マルチモーダルな回答が、質問に対して関連性があるかを評価します。
MultimodalContextualPrecisionMetric マルチモーダルなコンテキストの適合率を評価します。
MultimodalContextualRecallMetric マルチモーダルなコンテキストの再現率を評価します。
MultimodalContextualRelevancyMetric マルチモーダルなコンテキストの関連性を評価します。
MultimodalFaithfulnessMetric マルチモーダルな回答が、コンテキストに忠実であるかを評価します。
MultimodalGEvalMetric マルチモーダルな入出力に対して、カスタム基準で評価します。
MultimodalToolCorrectnessMetric マルチモーダルなツールが正しく使用されているかを評価します。
TextToImageMetric テキストから画像を生成するタスクの品質を評価します。
0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?