LoginSignup
2
1
記事投稿キャンペーン 「AI、機械学習」

日本語LLMの評価に使われるデータセット

Last updated at Posted at 2023-11-08

Weights & Biases(wandb)Nejumi LLMリーダーボードStability-AI/lm-evaluation-harnessで使われている、日本語の生成に対応した大規模言語モデルを評価するのに使われているデータセットをまとめました。

概要

各タスクのLlama2におけるスコアをまとめます。

概要 wandb1 StabilityAI2
MARC-ja 文章分類 52.4 59.9
JSTS 類似性 - -
JNLI 含意関係認識 33.3 35.6
JSQuAD 機械読解 9.0 67.7
JCommonsenseQA 常識推論 19.3 72.6
JAQKET 知識 - 48.2
XLSum-ja 要約 - 15.1
XWinograd 照応解析 - 63.8
MGSM 算数 - 13.2

wandbとStabilityAIのリーダーボードとでは各タスクの評価方法が異なり、全体的にwandbのほうが厳し目になっている点に注意が必要です。

慣習として様々なタスクにおけるスコアの平均点を取ってモデルの優劣が測られますが、スコアの評価指標はタスクによって異なるため平均値を見る際には注意が必要だと思います。
多くのタスクはaccuracy scoreで評価されますが、異なる場合は以下で説明します。

JGLUE

JGLUEは日本語言語理解のベンチマークで、Yahoo! JAPAN(当時)と早稲田大学との共同研究で発表されました。
2022年6月に公開され、当時はおもにBERTを評価するために使われていたようですが、本記事ではGPTの評価に焦点を当てています。

JGLUEは以下の複数のタスクからなります。

MARC-ja

Multilingual Amazon Reviews Corpus(MARC)の日本語版を利用したタスクです。
Amazonのレビューを入力として、positive(高評価)かnegative(低評価)かを 分類 します。
評価指標はAccuracyですが、クラスごとの不均衡が大きいためBalanced Accuracyを使うほうが良いようです。3

JSTS

Semantic Textual Samerityの日本語版です。意味の類似性の判定です。ふたつの文が与えられ、どれくらい類似しているかを0から5までで判定します。

GPTのようなtext2textにおいては実用性能との相関が低いとされ評価が省かれるようです。4BERTの評価には有効だと思われます。

JNLI

Natural Language Inference(NLI、自然言語推論)Recognizing Textual Entailment(RTE、含意関係認識) と呼ばれるタスクです。ふたつの文が与えられ、その関係が含意(entailment)・矛盾 (contradiction)・中立(neutral)のいずれになるかを判定します。

評価指標はAccuracyですが、クラスごとの不均衡が大きいためBalanced Accuracyを使うほうが良いようです。5
wandbリーダーボードでもStability AIリーダーボードでもLlama2のスコアが30台となっており、3択のAccuracyとしては低い値になっています。比較的難しいタスクのようです。

JSQuAD

The Stanford Question Answering Dataset(SQuAD)の日本語版です。与えられた文から答えになる部分を抜き出すタスクです。Wikipediaの段落とそれに関する質問が与えられ、回答になる部分を抜き出します。

評価指標はexact_matchやF1が用いられます。

JCommonsenseQA

CommonsenseQAの日本語版です。
常識的な 推論 の能力をはかるタスクです。問題は5択問題になっています。

Stability AI LM Evaluation Harness

Stability AIが公開している、言語モデル評価のためのフレームワークです。
上記のJGLUEが含まれていますが、それ以外にも以下の追加タスクを含みます。

GitHub - Stability-AI/lm-evaluation-harness: A framework for few-shot evaluation of autoregressive language models.

JAQKET

Wikipediaのタイトルを答えとしたクイズです。

exact_matchで評価されますが、Stability AIリーダーボードではLlama2-13bのスコアが48.2となっており、他のタスクよりも少し難しいのではないかと思います。

XLSum-ja

テキストの 要約 能力をはかるデータセットです。

Stability AIリーダーボードではLlama2-13bのスコアが約15と低い値になっていますが、これは評価指標にROUGE-2が使われているため、タスクの難易度ではなく評価の難しさが出てしまっているのではないかと思います。

XWinograd

Winograd Schema Challenge(WSC)の日本語版で、照応解析のタスクです。文中にある代名詞が何を指しているかを答えるものです。

Accuracyで評価されますが、回答は基本的に2択のため他のタスクよりも高いスコアになりやすいものだと思います。

MGSM

Multilingual Grade School Math(MGSM)は、小学校レベルの算数の問題を解くタスクです。問題は整数の解になるようになっています。

Stability AIリーダーボードではLlama2-13bのスコアが13.2と低い値になっており、これは比較的難しいタスクのようです。

参考

  1. Weights & Biases(wandb)Nejumi LLMリーダーボードmeta-llama/Llama-2-7b-chat-hf のスコアを100倍した

  2. Stability-AI/lm-evaluation-harnessllama2-13b-chat のスコア

  3. https://wandb.ai/wandb/LLM_evaluation_Japan/reports/LLM-JGLUE---Vmlldzo0NTUzMDE2?accessToken=u1ttt89al8oo5p5j12eq3nldxh0378os9qjjh14ha1yg88nvs5irmuao044b6eqa#marc-ja

  4. https://wandb.ai/wandb/LLM_evaluation_Japan/reports/LLM-JGLUE---Vmlldzo0NTUzMDE2?accessToken=u1ttt89al8oo5p5j12eq3nldxh0378os9qjjh14ha1yg88nvs5irmuao044b6eqa#jsts

  5. https://wandb.ai/wandb/LLM_evaluation_Japan/reports/LLM-JGLUE---Vmlldzo0NTUzMDE2?accessToken=u1ttt89al8oo5p5j12eq3nldxh0378os9qjjh14ha1yg88nvs5irmuao044b6eqa#jnli

2
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1