Weights & Biases(wandb)Nejumi LLMリーダーボードとStability-AI/lm-evaluation-harnessで使われている、日本語の生成に対応した大規模言語モデルを評価するのに使われているデータセットをまとめました。
概要
各タスクのLlama2におけるスコアをまとめます。
概要 | wandb1 | StabilityAI2 | |
---|---|---|---|
MARC-ja | 文章分類 | 52.4 | 59.9 |
JSTS | 類似性 | - | - |
JNLI | 含意関係認識 | 33.3 | 35.6 |
JSQuAD | 機械読解 | 9.0 | 67.7 |
JCommonsenseQA | 常識推論 | 19.3 | 72.6 |
JAQKET | 知識 | - | 48.2 |
XLSum-ja | 要約 | - | 15.1 |
XWinograd | 照応解析 | - | 63.8 |
MGSM | 算数 | - | 13.2 |
wandbとStabilityAIのリーダーボードとでは各タスクの評価方法が異なり、全体的にwandbのほうが厳し目になっている点に注意が必要です。
慣習として様々なタスクにおけるスコアの平均点を取ってモデルの優劣が測られますが、スコアの評価指標はタスクによって異なるため平均値を見る際には注意が必要だと思います。
多くのタスクはaccuracy scoreで評価されますが、異なる場合は以下で説明します。
JGLUE
JGLUEは日本語言語理解のベンチマークで、Yahoo! JAPAN(当時)と早稲田大学との共同研究で発表されました。
2022年6月に公開され、当時はおもにBERTを評価するために使われていたようですが、本記事ではGPTの評価に焦点を当てています。
JGLUEは以下の複数のタスクからなります。
MARC-ja
Multilingual Amazon Reviews Corpus(MARC)の日本語版を利用したタスクです。
Amazonのレビューを入力として、positive(高評価)かnegative(低評価)かを 分類 します。
評価指標はAccuracyですが、クラスごとの不均衡が大きいためBalanced Accuracyを使うほうが良いようです。3
JSTS
Semantic Textual Samerityの日本語版です。意味の類似性の判定です。ふたつの文が与えられ、どれくらい類似しているかを0から5までで判定します。
GPTのようなtext2textにおいては実用性能との相関が低いとされ評価が省かれるようです。4BERTの評価には有効だと思われます。
JNLI
Natural Language Inference(NLI、自然言語推論) や Recognizing Textual Entailment(RTE、含意関係認識) と呼ばれるタスクです。ふたつの文が与えられ、その関係が含意(entailment)・矛盾 (contradiction)・中立(neutral)のいずれになるかを判定します。
評価指標はAccuracyですが、クラスごとの不均衡が大きいためBalanced Accuracyを使うほうが良いようです。5
wandbリーダーボードでもStability AIリーダーボードでもLlama2のスコアが30台となっており、3択のAccuracyとしては低い値になっています。比較的難しいタスクのようです。
JSQuAD
The Stanford Question Answering Dataset(SQuAD)の日本語版です。与えられた文から答えになる部分を抜き出すタスクです。Wikipediaの段落とそれに関する質問が与えられ、回答になる部分を抜き出します。
評価指標はexact_matchやF1が用いられます。
JCommonsenseQA
CommonsenseQAの日本語版です。
常識的な 推論 の能力をはかるタスクです。問題は5択問題になっています。
Stability AI LM Evaluation Harness
Stability AIが公開している、言語モデル評価のためのフレームワークです。
上記のJGLUEが含まれていますが、それ以外にも以下の追加タスクを含みます。
JAQKET
Wikipediaのタイトルを答えとしたクイズです。
exact_matchで評価されますが、Stability AIリーダーボードではLlama2-13bのスコアが48.2となっており、他のタスクよりも少し難しいのではないかと思います。
XLSum-ja
テキストの 要約 能力をはかるデータセットです。
Stability AIリーダーボードではLlama2-13bのスコアが約15と低い値になっていますが、これは評価指標にROUGE-2が使われているため、タスクの難易度ではなく評価の難しさが出てしまっているのではないかと思います。
XWinograd
Winograd Schema Challenge(WSC)の日本語版で、照応解析のタスクです。文中にある代名詞が何を指しているかを答えるものです。
Accuracyで評価されますが、回答は基本的に2択のため他のタスクよりも高いスコアになりやすいものだと思います。
MGSM
Multilingual Grade School Math(MGSM)は、小学校レベルの算数の問題を解くタスクです。問題は整数の解になるようになっています。
Stability AIリーダーボードではLlama2-13bのスコアが13.2と低い値になっており、これは比較的難しいタスクのようです。
参考
- 日本語言語理解ベンチマークJGLUEの構築 〜 自然言語処理モデルの評価用データセットを公開しました - Yahoo! JAPAN Tech Blog
- オープンソースLLMの日本語評価結果 - W&Bローンチで誰でも再現可能に|Weights & Biases Japan
- 日本語大規模言語モデル「Japanese Stable LM Beta」シリーズをリリースしました — Stability AI Japan
- JGLUE: 日本語言語理解ベンチマーク
-
Weights & Biases(wandb)Nejumi LLMリーダーボードの
meta-llama/Llama-2-7b-chat-hf
のスコアを100倍した ↩ -
Stability-AI/lm-evaluation-harnessの
llama2-13b-chat
のスコア ↩ -
https://wandb.ai/wandb/LLM_evaluation_Japan/reports/LLM-JGLUE---Vmlldzo0NTUzMDE2?accessToken=u1ttt89al8oo5p5j12eq3nldxh0378os9qjjh14ha1yg88nvs5irmuao044b6eqa#marc-ja ↩
-
https://wandb.ai/wandb/LLM_evaluation_Japan/reports/LLM-JGLUE---Vmlldzo0NTUzMDE2?accessToken=u1ttt89al8oo5p5j12eq3nldxh0378os9qjjh14ha1yg88nvs5irmuao044b6eqa#jsts ↩
-
https://wandb.ai/wandb/LLM_evaluation_Japan/reports/LLM-JGLUE---Vmlldzo0NTUzMDE2?accessToken=u1ttt89al8oo5p5j12eq3nldxh0378os9qjjh14ha1yg88nvs5irmuao044b6eqa#jnli ↩