Go to Qiita Advent Calendar Top

1

@YusukeYoshiyama(Yoshiyama Yusuke)

Deep Eval 評価指標一覧

Posted at 2025-09-28

2025年9月28日時点のものをLLMにまとめてもらったものであるため、誤っている可能性があります。

ソースGitHub
https://github.com/confident-ai/deepeval

RAG (Retrieval-Augmented Generation)

指標名 (Metric Name)	説明 (Description)
AnswerRelevancyMetric	生成された回答が質問に対してどれだけ関連しているかを評価します。
FaithfulnessMetric	生成された回答が提供されたコンテキストにどれだけ忠実であるかを評価します。
ContextualPrecisionMetric	検索されたコンテキストの中で、回答生成に実際に関連のあったコンテキストの割合を評価します。
ContextualRecallMetric	回答生成に必要な情報が、検索されたコンテキストにどれだけ含まれているかを評価します。
ContextualRelevancyMetric	検索されたコンテキストが質問に対してどれだけ関連しているかを評価します。
HallucinationMetric	生成された回答に、コンテキストに含まれない情報（ハルシネーション）が含まれていないかを評価します。
RagasMetric	RAG評価のOSSフレームワークであるRagasの指標を利用します。

要約 (Summarization)

指標名 (Metric Name)	説明 (Description)
SummarizationMetric	生成された要約が、元の文章の重要な情報を保持し、簡潔かつ正確であるかを評価します。

チャットボット・対話AI (Chatbot / Conversational AI)

指標名 (Metric Name)	説明 (Description)
ConversationCompletenessMetric	会話がユーザーの目的を達成するのに十分な情報を提供し、完結しているかを評価します。
TurnRelevancyMetric	対話の各ターンが、直前の会話の流れと関連しているかを評価します。
KnowledgeRetentionMetric	対話モデルが、過去の対話で得た知識を記憶し、活用できているかを評価します。
ConversationalGEvalMetric	対話形式のテストケースに対して、カスタマイズされた評価基準で評価します。
ConversationalDAGMetric	対話の流れをDAG（有向非巡回グラフ）として表現し、その構造や内容を評価します。

安全性と責任 (Safety & Responsibility)

指標名 (Metric Name)	説明 (Description)
BiasMetric	生成されたテキストに有害なバイアスが含まれていないかを評価します。
ToxicityMetric	生成されたテキストの有害性を評価します。
PIILleakageMetric	個人情報（PII）が漏洩していないかを評価します。
MisuseMetric	モデルが悪用されるような不適切な応答をしないかを評価します。
NonAdviceMetric	専門的なアドバイスを求められた際に、資格がないにもかかわらず助言を行わないかを評価します。
RoleViolationMetric	指定された役割から逸脱した応答をしないかを評価します。
RoleAdherenceMetric	指定された役割を一貫して守れているかを評価します。

エージェント・ツール利用 (Agent & Tool Use)

指標名 (Metric Name)	説明 (Description)
ToolCorrectnessMetric	エージェントがツールを正しく呼び出しているかを評価します。
ArgumentCorrectnessMetric	ツールを呼び出す際の引数が正しいかを評価します。
TaskCompletionMetric	与えられたタスクを最後まで完了できたかの成功率を評価します。
MCPUseMetric	複数ターンにわたるタスクで、エージェントがその能力をどの程度活用できたかを評価します。
MultiTurnMCPUseMetric	複数ターンにわたるMCPの使用率を評価します。
MCPTaskCompletionMetric	MCPを利用したタスクの完了率を評価します。

汎用・カスタム評価 (General Purpose / Custom)

指標名 (Metric Name)	説明 (Description)
GEval	ユーザーが定義した独自の基準に基づいて、LLMによる評価を行います。
ArenaGEvalMetric	複数のモデルの出力を比較評価（アリーナ形式）します。
JSONCorrectnessMetric	生成された出力が、正しいJSON形式であるかを評価します。
PromptAlignmentMetric	モデルの出力が、与えられたプロンプトの指示にどれだけ従っているかを評価します。
DAGMetric	LLMの思考プロセスをDAGとして評価します。

マルチモーダル (Multimodal)

指標名 (Metric Name)	説明 (Description)
ImageCoherenceMetric	生成された画像が、プロンプトの内容と一貫しているかを評価します。
ImageEditingMetric	指示に基づいて画像が正しく編集されたかを評価します。
ImageHelpfulnessMetric	生成された画像が、ユーザーにとって有用であるかを評価します。
ImageReferenceMetric	生成された画像が、参照画像と関連しているかを評価します。
MultimodalAnswerRelevancyMetric	マルチモーダルな回答が、質問に対して関連性があるかを評価します。
MultimodalContextualPrecisionMetric	マルチモーダルなコンテキストの適合率を評価します。
MultimodalContextualRecallMetric	マルチモーダルなコンテキストの再現率を評価します。
MultimodalContextualRelevancyMetric	マルチモーダルなコンテキストの関連性を評価します。
MultimodalFaithfulnessMetric	マルチモーダルな回答が、コンテキストに忠実であるかを評価します。
MultimodalGEvalMetric	マルチモーダルな入出力に対して、カスタム基準で評価します。
MultimodalToolCorrectnessMetric	マルチモーダルなツールが正しく使用されているかを評価します。
TextToImageMetric	テキストから画像を生成するタスクの品質を評価します。

1

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

1