0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

LLM

Posted at
名称 カテゴリー 目的・評価対象 主な指標 特徴 使用モデル・用途 出典/リンク
GLUE 言語理解 文分類・自然言語理解 Accuracy, F1 代表的なNLP評価セット、比較的簡単 BERT, RoBERTa GLUE
SuperGLUE 言語理解 高難度NLP理解(推論, QAなど) Accuracy, F1 GLUEの発展版、より難しい推論を含む GPT系, T5, PaLM SuperGLUE
MMLU (Massive Multitask Language Understanding) 知識・推論 多分野の知識(57分野) Accuracy 大規模・幅広い知識理解、LLM比較でよく利用 GPT-4, Claude, LLaMA MMLU論文
BIG-bench 包括的評価 多様なタスク (>200) Accuracy, 多様 大規模・協調型タスク集 PaLM, GPT-3, GPT-4 BIG-bench
HumanEval コード生成 Pythonコード生成 Pass@k コード正確性(ユニットテストベース) Codex, GPT-4 HumanEval
MBPP (Mostly Basic Python Problems) コード生成 初級Python問題 Pass@k 難易度低めのプログラミング課題 GPT-3, Codex MBPP
BLEU / ROUGE / METEOR 自然言語生成 機械翻訳・要約 BLEU, ROUGE, METEOR 参照文との類似度、自動評価 翻訳モデル, 要約モデル BLEU
ChrF 自然言語生成 機械翻訳 chrFスコア 文字n-gram一致度 翻訳モデル ChrF
TruthfulQA 安全性・信頼性 真実性(錯覚/幻覚) Accuracy 幻覚生成を防ぐ性能測定 GPT-3, GPT-4 TruthfulQA
ToxiGen 安全性・倫理 有害発話の検出 Accuracy, AUC ヘイト/毒性言語評価 GPT, BERT系 ToxiGen
HellaSwag 常識推論 文補完・常識推論 Accuracy 難しい常識的文脈推論 GPT系, LLaMA HellaSwag
Winogrande 常識推論 代名詞消去・常識推論 Accuracy Winograd Schemaの拡張版 GPT系, T5, LLaMA Winogrande
Open LLM Leaderboard (HuggingFace) 総合評価 複数ベンチ統合 (MMLU, TruthfulQA, etc.) Accuracy, 平均スコア オープンモデル比較 LLaMA, Falcon, MPT HuggingFace Leaderboard
MT-Bench 応答品質 マルチターン対話評価 人手スコア (Likert) Chatbot評価に特化 GPT-4, ChatGPT MT-Bench
Chatbot Arena (Elo Rating) 応答品質 人間によるペア比較 Elo rating 大規模クラウドソース評価 GPT-4, Claude, Gemini Chatbot Arena
Arena-Hard 応答品質・推論 難問ベンチ + ペア比較 Elo rating 難問に特化したArena GPT-4, Claude Arena-Hard
MultiModal Benchmarks (e.g., VQA, MMMU) マルチモーダル 画像+テキスト理解 Accuracy 画像・動画+言語の統合評価 GPT-4V, Gemini MMMU
0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?