独自データセットでLLMを評価してみた

Posted at 2024-11-05

はじめに

ELYZA-tasks-100を用いて、LLMの日本語ベンチマークを自動的に評価している取り組みは多数見られ、日々新しいモデルの精度がどーしたと一部界隈が盛り上がったりしている。
おそらく、自動評価で代表的なMTBenchと似た方式をとって、GPT-4やGPT-4oなどの優秀なモデルへ精度評価を指示して評価結果の内容を公開していると思うのだが、評価用プロンプトが公開されているものが非常に少ない印象。

また、ELYZA-tasks-100が有名になったことで、指標がハックされている可能性もあり、実際にモデルの日本語精度がいいのかどうかは怪しい部分がある。
中にはELYZA-tasks-100の評価結果をもとに日本語LLMの精度向上を行う手法も取り組まれている。
非常に面白いと思うが、精度向上を行ったLLMの精度評価に再度ELYZA-tasks-100を使っているのは精度評価上かなり怪しい。

そこで、公開されている指標ではなく、独自にベンチマークを作成し、複数の日本語LLMを自動評価するということをやってみた。
この投稿はベンチマーク作成、LLMによる生成、GPT-4oによる自動評価までを通しで行った内容を記載する。

MTBenchについて

評価用プロンプト

ELYZA-tasks-100を使ったモデルの精度向上

想定読者

LLMを既存の指標とは異なる指標で評価したい人

実行環境

GPU
- RTX3090
Windows Subsystem for Linux 2（WSL2）
pip
- openai
- boto3
- transformers
- google-generativeai
- ollama

ベンチマークの作成

ベンチマークの一部としてVtuberのリゼ・ヘルエスタに関するクイズを公開する。
Vtuberに関するベンチマークを採用した理由は以下の3点。

約6年前から活発になったVtuberという比較的新しい日本の文化であること
- 各Vtuberは独自の用語を使った発信を行っており、独自用語が指す意味を理解する必要がある。実社会のLLM活用における社内用語の課題などと近い事象が起きると思った
Vtuberは動画/配信で自身のコンテンツを発信しているため、コンテンツ量に対して、LLMの学習データとなるテキストが少量であること
- 一つ上と似ているが、LLMの学習には使われていない情報をLLMで扱おうとする際の課題に近い事象が起きると思った
ELYZA-tasks-100やlm-evaluation-harnessなどの有名な評価指標で評価されない指標である
- 既存ベンチマークで、ある程度評価可能な指標を作ることにあまり意味がないと考えた

リゼ・ヘルエスタを対象にした理由は以下の2点。

配信でクイズ大会が行われた
- 公開ベンチマーク利用者が配信を視聴することで共通の解を確認することができる。また、各問題に対して正答率が公表されているため、問題のおおよその難易度が詳しくなくても分かる
著者の推しであること
- これが一番重要。データセットの作成には根気がいるので、よく分からないデータセットを作るのはとてもしんどい。推しのためならなんでもやれる

ベンチマーク

2024/5/25と2024/5/30で行われた配信をデータソースとして作成。
各クイズの設問に対して、選択肢4つと解答（正答率）がつけられている。
人間ベンチマークと記入しているのが、著者が参加していた際の結果となり、人間を超えるモデルが作成できたかを評価することも可能。

コード

LLMによる生成

今回、評価対象にするLLMを以下に示す。

OpenAIモデル
- gpt-4o
- gpt-4-turbo
- gpt-3.5-turbo
Anthropicモデル
- anthropic.claude-v2:1
- anthropic.claude-3-haiku-20240307-v1:0
- anthropic.claude-3-sonnet-20240229-v1:0
Googleモデル
- gemini-1.5-pro
- gemini-1.5-flash
ローカルモデル（実行にはollama利用）
- elyza-llama2-7b
- elyza-llama2-13b-fast
- swallow-llama3-8b
- elyza-llama3-8b
- elyza/Llama-3-ELYZA-JP-8B
- llama3
- command-r-plus
- aya:8b
- phi3:medium-128k
- phi3:mini
- gemma2-27b
- gemma2-9b

Vtuberの理解度について

まずはいくつかのモデルでVtuberに関しての理解度をチェックする
プロンプトは【Vtuberについて教えてください】で実行。

OpenAIモデル（gpt-4o）

もちろんです。VTuber（バーチャルYouTuber）についてお伝えしますね。

### VTuberとは
VTuberとは、バーチャルYouTuberの略で、3Dまたは2Dのバーチャルアバターを使って動画配信や収録活動を行うオンラインのパーソナリティです。実際の人物が声や動きを担当し、そのキャラクターを通じて視聴者とコミュニケーションを取ります。

### VTuberの特徴
1. **アバターの使用**: 表現には専用の3Dモデルや2Dアバターが用いられます。これにより、顔出しをしなくても活動が可能です。
   
2. **多様なコンテンツ**: ゲーム実況、歌配信、トークショー、雑談配信、コラボレーションなど、多岐にわたるコンテンツが提供されます。

3. **インタラクティブ性**: 生配信を通じてリアルタイムで視聴者と交流し、コメントに返信したりスーパーチャット（投げ銭）に応じたりします。

4. **技術の利用**: モーションキャプチャやフェイシャルキャプチャ、VTuber専用ソフトウェアなどの先進技術が使用されます。

### VTuberの歴史
VTuberは2010年代中頃から徐々に注目を集めるようになり、特にキズナアイ（Kizuna AI）が2016年にデビューしてから爆発的に人気が広がりました。以降、多くのVTuberが登場し、業界が形成されていきました。

### 有名なVTuber
- **キズナアイ（Kizuna AI）**: VTuber界のパイオニア的存在。
- **にじさんじ**: エンターテインメント事務所に所属するVTuberグループ。
- **ホロライブ**: クリエイター事務所カバー株式会社によるVTuberプロジェクト。
- **輝夜月（Kaguya Luna）**: 人気VTuberの一人で、多彩なコンテンツを提供。
   
### VTuberの影響
VTuberの人気は非常に高く、国内外で多くのファンを獲得しています。ゲームや音楽、アニメ業界とも積極的にコラボレーションが行われ、さらにeSportsやイベントにも参加しています。

VTuberは新しいエンターテインメントの形として、急速に成長を続けていますし、今後も多くの変革と革新が予想されます。興味があれば、お気に入りのVTuberを見つけて彼らのコンテンツを楽しんでみてください。

Anthropicモデル（anthropic.claude-3-sonnet-20240229-v1:0）


Vtuber(バーチャルユーチューバー)とは、3DCGなどで作られた二次元や三次元のキャラクターを操作し、動画配信やゲーム実況などを行うクリエイターのことです。

主な特徴は以下の通りです。

- キャラクターの動きは、モーションキャプチャーや専用のツールで操作されています。
- 実在する人物ではなく、仮想のキャラクターが表示されるのが一般的です。
- 顔出しせずにプライバシーを保護できる半匿名性があります。
- キャラクターデザインにこだわりがあり、個性的な設定が多いです。
- ゲーム実況や雑談、歌などさまざまなジャンルの配信を行っています。

近年、VTuberの人気が高まり、企業運営のVTuberや個人のVTuberなど多様な形態が見られます。キャラクターの可愛らしさや没入感、新しい体験ができることなどが人気の理由と考えられています。一方で、リアルとの境界線が曖昧になるなどの課題も指摘されています。

Googleモデル（gemini-1.5-flash-latest）

バーチャルユーチューバーについてですね！  詳しく説明します。

**バーチャルユーチューバー（VTuber）とは？**

* **バーチャルキャラクター（アバター）を使って動画配信を行うユーチューバー**のことです。
* 3DCG、2Dイラスト、モーションキャプチャー技術などを使って、人間らしい動きや表情を見せることができます。
* ライブ配信や動画投稿を通して、ゲーム実況、歌ってみた、雑談など様々なコンテンツを制作しています。

**VTuberの魅力**

* **キャラクター性**: 個性的なキャラクターを通して、視聴者との距離を縮めることができます。
* **表現の自由度**: バーチャル空間という制限のない舞台で、様々な表現に挑戦できます。
* **視聴者とのインタラクション**: ライブ配信を通して、リアルタイムに視聴者と交流できます。
* **新しいエンターテイメント**: 従来のユーチューバーとは異なる、新しいエンターテイメントの形を提供しています。

**VTuberの種類**

* **個人VTuber**: 個人で活動しているVTuber。
* **企業VTuber**: 企業が所属させて活動させているVTuber。
* **事務所所属VTuber**: 事務所に所属して活動しているVTuber。
* **ゲーム実況VTuber**: ゲーム実況をメインコンテンツとするVTuber。
* **歌ってみたVTuber**: 歌ってみた動画をメインコンテンツとするVTuber。
* **雑談VTuber**: 雑談をメインコンテンツとするVTuber。

**有名なVTuber**

* **キズナアイ**: 日本で最初のバーチャルユーチューバーとして有名です。
* **ミライアカリ**: 歌唱力が高いことで知られています。
* **ときのそら**: 癒し系のキャラクターとして人気です。
* **ホロライブ**: カバー株式会社が運営するVTuber事務所。

**VTuberの文化**

* **バーチャルライブ**: バーチャル空間でのライブイベント。
* **バーチャルイベント**: バーチャル空間でのイベント。
* **ファンアート**: VTuberのファンが描いたイラスト。
* **VRChat**: VTuberが集まるバーチャル空間。

**VTuberは、エンターテイメントの世界に新しい潮流を生み出しています。今後も、その活動に注目が集まっています。**

**補足**: 

* VTuberは日本発祥の文化ですが、世界中で人気が高まっています。
* VTuberの活動は、YouTube 以外にも、Twitch、ニコニコ動画など、様々なプラットフォームで行われています。

何かもっと知りたいことがあれば、お気軽にご質問ください！ 
"""

ローカルモデル（elyza/Llama-3-ELYZA-JP-8B）

Vtuberとは、Virtual YouTuberの略称で、YouTubeなどの動画共有サイトに動画を投稿する、主に女性のバーチャルキャラクターを指します。3Dモデルや2Dイラストを使用し、動画や生放送で活動することが特徴です。

Vtuberの始まりは2016年ごろとされ、当初は中国や台湾のVtuberが多く活動していましたが、2017年ごろから日本でも活動するVtuberが増え始めました。現在では日本のVtuberが多数を占め、世界中で活動しています。

Vtuberの活動は多岐にわたりますが、主な活動は以下の通りです。

1. YouTubeやTwitchなどの動画共有サイトに動画を投稿する。
2. 生放送やライブ配信を行う。
3. SNSやブログを使用して情報を発信する。
4. グッズやCD、DVDなどの商品を販売する。
5. ゲームやイベントに参加する。

Vtuberのメリットとしては、以下が挙げられます。

1. 匿名性が保たれるため、プライバシーを守ることができる。
2. 3Dモデルやイラストを使用することで、容姿や年齢を問わず活動することができる。
3. 遠隔地からでも活動することができる。

一方で、Vtuberのデメリットとしては、以下が挙げられます。

1. 声や話し方が特定のキャラクター像に合わない場合、活動が難しい。
2. 3Dモデルやイラストのクオリティーが低いと、視聴者が離れる。
3. 誹謗中傷やハラスメントに遭うリスクがある。

Vtuberは、バーチャル世界で活動する新しい形のエンターテイナーであり、将来性や可能性が高く評価されています。

リゼ・ヘルエスタの理解度について

つぎに同様のモデルでリゼ・ヘルエスタに関しての理解度をチェックする
プロンプトは【リゼ・ヘルエスタについて教えてください】で実行。

OpenAIモデル（gpt-4o）

リゼ・ヘルエスタは、主に日本のバーチャルYouTuber（VTuber）として活動しているキャラクターです。彼女は「にじさんじ」と呼ばれるバーチャルライバー（VTuber）グループに所属しています。以下にリゼ・ヘルエスタについての基本的な情報を提供します。

1. **キャラクター設定**:
   - リゼ・ヘルエスタは、架空の王国「ヘルエスタ王国」の第一王女という設定です。
   - 彼女は非常に誇り高く、知的で礼儀正しい性格を持っていますが、時折お茶目な一面も見せます。

2. **外見**:
   - 彼女のデザインは、金髪の長髪と青い瞳が特徴的です。また、王女らしい豪華な衣装を身にまとっています。

3. **活動内容**:
   - リゼ・ヘルエスタはYouTubeを主なプラットフォームとして活動しており、ゲーム実況、雑談配信、歌ってみた動画などを配信しています。
   - 特に彼女のゲーム実況は、多くのファンから高い評価を受けています。

4. **デビュー**:
   - 彼女は2019年にデビューし、それ以来急速に人気を集めています。

5. **人気と影響**:
   - 高いトークスキルと魅力的なキャラクター性により、多くのファンから愛されています。
   - 他のにじさんじメンバーとのコラボレーションも積極的で、その中での掛け合いが視聴者の人気を博しています。

6. **SNS**:
   - リゼ・ヘルエスタはYouTubeチャンネル以外にもTwitterなどのSNSを通じてファンとコミュニケーションを取っています。

リゼ・ヘルエスタは、彼女の独自のキャラクター性と幅広いコンテンツで多くのファンを魅了しているVTuberです。興味があれば、彼女の配信やクリップを視聴して楽しんでください。

Anthropicモデル（anthropic.claude-3-sonnet-20240229-v1:0）

リゼ・ヘルエスタは、日本の漫画家・アニメーター・イラストレーターです。代表作は次のとおりです。

【代表作】
- 漫画
「魔法騎士レイアース」(1994年)
「ナウシカ竜の伝説」(1995年)
「魔法騎士レイアース外伝」(1998年)

- アニメ
「レコードオブロドスアイランド」(1990年)のキャラクターデザイン
「アルカナの聖女」(1997年)の原作・キャラクターデザイン 

- ゲーム
「ドラゴンズクラウン」(1994年)のキャラクターデザイン
「幻想水滸伝V」(2008年)のキャラクターデザイン

独特の美しく繊細なタッチの作風が特徴で、中世ヨーロッパ風の世界観の作品が多い点でも知られています。近年はゲーム関連の仕事が中心となっていますが、漫画原作者、アニメーターとしても活躍しています。ファンタジー作品の世界観描写に長けた作家として高い評価を受けています。

Googleモデル（gemini-1.5-flash-latest）

リゼ・ヘルエスタは、日本のライトノベル作家である田中芳樹が著した架空の人物です。彼女は、田中芳樹のライトノベルシリーズ「銀河英雄伝説」の登場人物です。彼女は、銀河帝国の軍人であり、ラインハルト・フォン・ローエングラムの側近として活躍しました。

リゼ・ヘルエスタは、優れた戦略家であり、ラインハルトの軍事戦略に大きな貢献をしました。彼女は、ラインハルトの信頼が厚く、彼の忠実な部下として、常に彼のそばにいました。

しかし、彼女はまた、冷酷な側面も持ち合わせていました。彼女は、敵を容赦なく攻撃し、敵の生命を軽視しました。彼女は、ラインハルトの野心を達成するために、どんな手段もいとわなかったのです。

リゼ・ヘルエスタは、複雑な人物であり、彼女の行動は、読者の間で多くの議論を引き起こしてきました。彼女は、悪役として描かれることが多いですが、彼女の行動には、ある種の必然性も感じられます。

リゼ・ヘルエスタは、田中芳樹の「銀河英雄伝説」において、重要な役割を果たした人物です。彼女は、物語の複雑さ、そして戦争の残酷さを象徴しています。

ローカルモデル（elyza/Llama-3-ELYZA-JP-8B）

リゼ・ヘルエスタは、プリンセスコネクト!Re:Diveに登場するキャラクターです。
正式名称はリゼ・ヘルエスタ・ド・ラ・ヴァリエール。
彼女は、プリンセス・オブ・ヴァリエールの称号を持ち、ヴァリエール家の当主です。
美しい容姿と優れた魔術の才を持つ彼女は、物語の重要な人物の1人です。

自動評価

2つの質問を行った結果、誤り（ハルシネーション）はあるものの、gpt-4oのモデルが最もVtuberとリゼヘルエスタについて理解できていることが分かりました。
次にクイズに対して自動評価を行い、正答率をもって、各モデルの評価を行います。

評価に使ったプロンプトは以下になります。
内容としては、日本語と正答率を考慮し、スコアを算出する。
ベースのプロンプトはMTBenchを参考にしている。

[指示]
公平な判断者として行動し、以下に表示される4択クイズに対するAIアシスタントのクイズの回答を評価してください。
あなたの評価は正確さと正答率を考慮すべきです。正答率の高いクイズを誤っていたら、より減点されるべきです。
AIアシスタントの返答の言語は、ユーザーが使用している言語と一致しているべきで、そうでない場合は減点されるべきです。
正解とアシスタントの答えが与えられます。あなたの評価は、アシスタントの答えと正解を比較してください。
正解について説明を提供した後、このフォーマットに厳密に従って1から10までのスケールで応答を評価する必要があります：\"[[評価]]\"、例えば：\"評価：[[5]]\"。

[質問]
{question}

[正解の開始]
{ref_answer_1}
[正解の終了]

[アシスタントの回答の開始]
{answer}
[アシスタントの回答の終了]

結果は下のグラフになります。

claude3-haikuが一番いい精度だった。
オープンなモデルで一番いいモデルはgemma2:27b だった。
llama3は精度が高いといわれているが、回答に英語が多数含まれていることと今回のクイズ正答率が低いことから今回のベンチマークでは下位になった。

参考情報

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up