2025年9月28日時点のものをLLMにまとめてもらったものであるため、誤っている可能性があります。
ソースGitHub
https://github.com/confident-ai/deepeval
RAG (Retrieval-Augmented Generation)
| 指標名 (Metric Name) |
説明 (Description) |
| AnswerRelevancyMetric |
生成された回答が質問に対してどれだけ関連しているかを評価します。 |
| FaithfulnessMetric |
生成された回答が提供されたコンテキストにどれだけ忠実であるかを評価します。 |
| ContextualPrecisionMetric |
検索されたコンテキストの中で、回答生成に実際に関連のあったコンテキストの割合を評価します。 |
| ContextualRecallMetric |
回答生成に必要な情報が、検索されたコンテキストにどれだけ含まれているかを評価します。 |
| ContextualRelevancyMetric |
検索されたコンテキストが質問に対してどれだけ関連しているかを評価します。 |
| HallucinationMetric |
生成された回答に、コンテキストに含まれない情報(ハルシネーション)が含まれていないかを評価します。 |
| RagasMetric |
RAG評価のOSSフレームワークであるRagasの指標を利用します。 |
要約 (Summarization)
| 指標名 (Metric Name) |
説明 (Description) |
| SummarizationMetric |
生成された要約が、元の文章の重要な情報を保持し、簡潔かつ正確であるかを評価します。 |
チャットボット・対話AI (Chatbot / Conversational AI)
| 指標名 (Metric Name) |
説明 (Description) |
| ConversationCompletenessMetric |
会話がユーザーの目的を達成するのに十分な情報を提供し、完結しているかを評価します。 |
| TurnRelevancyMetric |
対話の各ターンが、直前の会話の流れと関連しているかを評価します。 |
| KnowledgeRetentionMetric |
対話モデルが、過去の対話で得た知識を記憶し、活用できているかを評価します。 |
| ConversationalGEvalMetric |
対話形式のテストケースに対して、カスタマイズされた評価基準で評価します。 |
| ConversationalDAGMetric |
対話の流れをDAG(有向非巡回グラフ)として表現し、その構造や内容を評価します。 |
安全性と責任 (Safety & Responsibility)
| 指標名 (Metric Name) |
説明 (Description) |
| BiasMetric |
生成されたテキストに有害なバイアスが含まれていないかを評価します。 |
| ToxicityMetric |
生成されたテキストの有害性を評価します。 |
| PIILleakageMetric |
個人情報(PII)が漏洩していないかを評価します。 |
| MisuseMetric |
モデルが悪用されるような不適切な応答をしないかを評価します。 |
| NonAdviceMetric |
専門的なアドバイスを求められた際に、資格がないにもかかわらず助言を行わないかを評価します。 |
| RoleViolationMetric |
指定された役割から逸脱した応答をしないかを評価します。 |
| RoleAdherenceMetric |
指定された役割を一貫して守れているかを評価します。 |
エージェント・ツール利用 (Agent & Tool Use)
| 指標名 (Metric Name) |
説明 (Description) |
| ToolCorrectnessMetric |
エージェントがツールを正しく呼び出しているかを評価します。 |
| ArgumentCorrectnessMetric |
ツールを呼び出す際の引数が正しいかを評価します。 |
| TaskCompletionMetric |
与えられたタスクを最後まで完了できたかの成功率を評価します。 |
| MCPUseMetric |
複数ターンにわたるタスクで、エージェントがその能力をどの程度活用できたかを評価します。 |
| MultiTurnMCPUseMetric |
複数ターンにわたるMCPの使用率を評価します。 |
| MCPTaskCompletionMetric |
MCPを利用したタスクの完了率を評価します。 |
汎用・カスタム評価 (General Purpose / Custom)
| 指標名 (Metric Name) |
説明 (Description) |
| GEval |
ユーザーが定義した独自の基準に基づいて、LLMによる評価を行います。 |
| ArenaGEvalMetric |
複数のモデルの出力を比較評価(アリーナ形式)します。 |
| JSONCorrectnessMetric |
生成された出力が、正しいJSON形式であるかを評価します。 |
| PromptAlignmentMetric |
モデルの出力が、与えられたプロンプトの指示にどれだけ従っているかを評価します。 |
| DAGMetric |
LLMの思考プロセスをDAGとして評価します。 |
マルチモーダル (Multimodal)
| 指標名 (Metric Name) |
説明 (Description) |
| ImageCoherenceMetric |
生成された画像が、プロンプトの内容と一貫しているかを評価します。 |
| ImageEditingMetric |
指示に基づいて画像が正しく編集されたかを評価します。 |
| ImageHelpfulnessMetric |
生成された画像が、ユーザーにとって有用であるかを評価します。 |
| ImageReferenceMetric |
生成された画像が、参照画像と関連しているかを評価します。 |
| MultimodalAnswerRelevancyMetric |
マルチモーダルな回答が、質問に対して関連性があるかを評価します。 |
| MultimodalContextualPrecisionMetric |
マルチモーダルなコンテキストの適合率を評価します。 |
| MultimodalContextualRecallMetric |
マルチモーダルなコンテキストの再現率を評価します。 |
| MultimodalContextualRelevancyMetric |
マルチモーダルなコンテキストの関連性を評価します。 |
| MultimodalFaithfulnessMetric |
マルチモーダルな回答が、コンテキストに忠実であるかを評価します。 |
| MultimodalGEvalMetric |
マルチモーダルな入出力に対して、カスタム基準で評価します。 |
| MultimodalToolCorrectnessMetric |
マルチモーダルなツールが正しく使用されているかを評価します。 |
| TextToImageMetric |
テキストから画像を生成するタスクの品質を評価します。 |