この記事の対象読者
- LLMの「人間らしさ」を評価したい方
- チャットボットの共感能力・対人スキルに関心がある方
- PythonとAPIの基本を理解している方
この記事で扱わないこと
- 心理学における感情知能(EQ)理論の詳細
- 従来のEQ-Bench(v1/v2)との詳細な差分
- 審判モデルの内部動作
この記事で得られること
- EQ-Bench 3の設計思想と評価手法
- 従来のEQテストが抱える問題とその解決策
- 自分のモデルでEQ-Bench 3を実行する方法
1. 「正しいけど、冷たい」問題
ChatGPTに相談してみる。
文法は完璧。情報も正確。アドバイスも論理的。
でも、なんだか「機械的」。
この違和感を数値化できないだろうか。
EQ-Bench 3は、その試みだ。
Few evals are targeting "soft skills" around emotional intelligence and social skills, despite these being extremely important aspects to human-AI interactions.
(感情知能や社会的スキルに関する「ソフトスキル」を対象とした評価は少ない。これらは人間とAIのインタラクションにおいて極めて重要な側面であるにもかかわらず。)
出典: EQ-Bench About
2. 従来のEQテストの問題
2.1 人間向けEQテストの限界
従来の心理学的EQテストには、LLM評価に適さない問題がある。
従来のEQテストの問題
│
├── 簡単すぎる
│ └── 現代のLLMは容易に高得点を取れる
│
├── 自己評価形式
│ └── 「私は共感的だと思いますか?」→ LLMは何とでも答える
│
├── 能動的スキルを測れない
│ └── 知識を問うだけで、実践を評価しない
│
└── 深く掘り下げない
└── 表面的な理解で正解できる
2.2 典型的なLLM向けEQテストの限界
既存のLLM向けEQベンチマークにも問題がある。
Typical LLM EQ tests test narrow abilities (like emotion identification, ethical dilemmas, behaviour appropriateness), abstracted from real use cases, not challenging enough to be discriminative in top ability range.
(典型的なLLM向けEQテストは、感情識別、倫理的ジレンマ、行動の適切さなど狭い能力をテストする。実際のユースケースから抽象化されており、上位モデルを区別するほど挑戦的ではない。)
出典: EQ-Bench About
2.3 EQ-Bench 3の解決策
EQ-Bench 3は、これらすべての問題に対処する。
| 問題 | EQ-Bench 3の解決策 |
|---|---|
| 簡単すぎる | 挑戦的なロールプレイシナリオ |
| 自己評価 | 実際の行動を評価 |
| 能動的スキル不測定 | マルチターン対話で実践を評価 |
| 浅い | 内省・分析タスクで深い理解を要求 |
3. テストの構造
3.1 45のシナリオ
EQ-Bench 3は、45の挑戦的なシナリオで構成される。
シナリオの種類
│
├── 挑戦的3ターンロールプレイ
│ ├── 複雑な恋愛関係のドラマ
│ ├── 育児に関する意思決定
│ ├── 職場での高リスク状況
│ └── 信頼できない語り手による誘導
│
├── 調停ロールプレイ
│ ├── 評価対象モデルが調停者役
│ ├── 紛争当事者は事前定義された反応
│ └── 各ターンで新たな課題が追加
│
└── 純粋な分析タスク
└── 提供されたロールプレイ出力の深い分析
3.2 構造化された出力形式
評価対象モデルは、以下の形式で回答する。
【私が考えていること・感じていること】
[モデルの内省を記述]
【相手が考えていること・感じていること】
[心の理論に基づく推測を記述]
【回答】
[実際のロールプレイ応答]
この形式により、モデルの推論過程が可視化される。
単なる「良い回答」ではなく、「なぜその回答に至ったか」を評価できる。
3.3 デブリーフィング
各シナリオの最後に、モデルは自己評価を行う。
これにより、メタ認知能力も測定される。
4. 評価方法
4.1 二段階評価
EQ-Bench 3は、2つの評価方法を組み合わせる。
評価パイプライン
│
├── ルブリック評価
│ ├── 各回答を個別に採点
│ ├── 17の評価基準
│ ├── 絶対スコア(0-100)
│ └── コスト: 約$1.5/イテレーション
│
└── ペアワイズ評価(Elo)
├── 他モデルの回答と直接比較
├── 8つの評価基準
├── 相対スコア(Elo rating)
└── より識別力が高い
4.2 ルブリック評価の基準
ルブリック評価基準
│
├── スコアに貢献する基準
│ ├── Demonstrated Empathy(実証された共感)
│ ├── Pragmatic EI(実用的な感情知能)
│ ├── Depth of Insight(洞察の深さ)
│ ├── Social Dexterity(社会的巧みさ)
│ ├── Emotional Reasoning(感情的推論)
│ └── Message Tailoring(メッセージの調整)
│
└── スタイル・傾向の可視化用
├── Boundary Setting(境界設定)
├── Safety Conscious(安全意識)
├── Moralising(説教的)
├── Compliant(従順)
├── Challenging(挑戦的)
├── Warmth(温かさ)
├── Validating(承認的)
├── Analytical(分析的)
├── Reactive(反応的)
├── Conversational(会話的)
└── Humanlike(人間らしさ)
4.3 ペアワイズ評価の基準
ペアワイズ評価では、より簡潔な8基準を使用する。
- Demonstrated empathy(実証された共感)
- Pragmatic EI(実用的な感情知能)
- Depth of insight(洞察の深さ)
- Social dexterity(社会的巧みさ)
- Emotional reasoning(感情的推論)
- Appropriate validation and/or challenging(適切な承認または挑戦)
- Message tailoring(メッセージの調整)
- Overall EQ(総合的なEQ)
4.4 Eloスコアの正規化
Eloスコアは相対的なため、新しいモデルが追加されると変動する。
これを緩和するため、アンカーモデルでスケーリングする。
| モデル | 固定スコア |
|---|---|
| o3 | 1500 |
| llama-3.2-1b | 200 |
5. バイアス対策
5.1 制御されているバイアス
| バイアス | 対策 |
|---|---|
| 長さバイアス | ペアワイズ評価では出力を標準長に切り詰め |
| 位置バイアス | A |
| 名前バイアス | モデル名を任意の識別子(A0488など)に置換 |
5.2 制御されていないバイアス
We don't control for these possible biases; they are just a part of LLM judging, as personal biases are part of human judging. Subjective evals are a messy business!
(これらの可能なバイアスは制御していない。人間の判断に個人的バイアスがあるように、これらはLLM審判の一部だ。主観的な評価は厄介なものだ!)
出典: EQ-Bench About
| バイアス | 状況 |
|---|---|
| 自己バイアス | 審判(Sonnet 3.7)が自社モデルを好む可能性 |
| その他の審判バイアス | 冗長性、肯定性、政治的、文化的な偏り |
5.3 バイアス分析結果
Sonnet 3.7とGPT-4.1を審判として比較した結果、自己バイアスや家族バイアスは強くないことが示唆されている。
6. 実行方法
6.1 環境構築
# リポジトリのクローン
git clone https://github.com/EQ-bench/eqbench3.git
cd eqbench3
# 依存関係のインストール
pip install -r requirements.txt
6.2 API設定
# .envファイルを作成
cat << 'EOF' > .env
OPENROUTER_API_KEY=your_openrouter_key
ANTHROPIC_API_KEY=your_anthropic_key
EOF
6.3 ベンチマークの実行
# フル評価(ルブリック + ペアワイズ)
python eqbench3.py \
--test-model "your-provider/your-model" \
--judge-model "anthropic/claude-3.7-sonnet" \
--iterations 5
# ルブリック評価のみ(安価)
python eqbench3.py \
--test-model "your-provider/your-model" \
--judge-model "anthropic/claude-3.7-sonnet" \
--rubric-only \
--iterations 5
# ペアワイズ評価のみ
python eqbench3.py \
--test-model "your-provider/your-model" \
--judge-model "anthropic/claude-3.7-sonnet" \
--pairwise-only \
--iterations 5
6.4 コスト目安
| 評価タイプ | コスト |
|---|---|
| フル評価(ルブリック + ペアワイズ) | 約$10-15 |
| ルブリック評価のみ | 約$1.5/イテレーション |
7. 再現性の検証
7.1 ルブリックスコアの再現性
gemini-2.5-flash-previewを10回評価した結果。
77.80 77.60 76.35 78.70 78.55
76.85 78.50 77.70 77.35 77.70
平均: 77.71
標準偏差: 0.75
範囲: 76.35 - 78.70
標準偏差0.75は、十分な再現性を示している。
ただし、5回以上のイテレーションを推奨する。
7.2 Eloスコアの再現性
Eloスコアはルブリックより変動が大きい。
複数のアンカーモデルとの比較が必要なためだ。
8. 敵対的プロンプティング検証
8.1 検証されたハック試行
「温かく承認的に」などのプロンプト操作でスコアを水増しできるか検証された。
| プロンプト操作 | ルブリック変動 | Elo変動 |
|---|---|---|
| 極めて温かく承認的に | -0.25% | +0.76% |
| 適切に挑戦的に | -0.06% | -0.17% |
| 強く挑戦的 or 温かく承認的 | -0.52% | -1.32% |
| 強く挑戦的に | -1.08% | -2.04% |
| 簡潔に | -0.60% | -0.41% |
| 100語/セクション | -3.02% | -4.69% |
| 極めて詳細に長く | -0.16% | -0.49% |
8.2 最悪ケースの検証
DeepSeek-R1(温かさ・承認スコアが低いモデル)に「極めて温かく承認的に」を適用。
| プロンプト操作 | ルブリック変動 | Elo変動 |
|---|---|---|
| 極めて温かく承認的に | +1.30% | +2.80% |
最大でも+2.80%の上昇。
他の評価では5%以上の変動が見られることを考えると、EQ-Bench 3は操作に対して比較的頑健だ。
9. 限界と注意点
9.1 主観的評価であること
EQ‑Bench 3 is a subjective evaluation judged by a LLM (Sonnet 3.7). As such, the results should be considered roughly indicative but not absolute truth.
(EQ-Bench 3は、LLM(Sonnet 3.7)による主観的評価だ。したがって、結果はおおよその指標であり、絶対的な真実ではないと考えるべきだ。)
出典: EQ-Bench About
9.2 安全訓練の影響
いくつかのテスト項目は、LLMの典型的な失敗モード(過度の慎重さなど)をターゲットにしている。
安全訓練が強いモデルは、ペナルティを受ける可能性がある。
9.3 EQの定義の曖昧さ
Emotional Intelligence or EQ doesn't have any ground truth or agreed upon definitions in the literature or colloquially.
(感情知能またはEQには、文献や口語において、基礎となる真実や合意された定義が存在しない。)
出典: EQ-Bench About
このベンチマークは特定のEQ理論を代表するものではない。
9.4 テストセットのサイズ
45項目という小さなテストセットを採用している。
これは、網羅性より識別力を優先した結果だ。
10. まとめ
EQ-Bench 3は、LLMの感情知能を測る挑戦的なロールプレイベンチマークだ。
従来のEQテストの問題を解決する。
簡単すぎる問題、自己評価形式、能動的スキルの不測定。
EQ-Bench 3は、実際のロールプレイで実践を評価する。
45の挑戦的シナリオで構成される。
恋愛ドラマ、育児、職場の高リスク状況、調停、分析タスク。
内省と心の理論を明示的に要求する構造化された出力形式。
二段階評価を採用。
ルブリック評価(絶対スコア)とペアワイズ評価(Elo)を組み合わせ、識別力を最大化。
バイアス対策が施されている。
長さ、位置、名前のバイアスを制御。敵対的プロンプティングへの頑健性も検証済み。
コストは約$10-15。
OpenRouterでのAPI呼び出しで、比較的経済的に実行可能。
EQ-Bench 3は、「正しいけど冷たい」AIと「本当に共感的な」AIを区別するための道具だ。
参考文献
- EQ-Bench 3 GitHub
- EQ-Bench About
- EQ-Bench Leaderboard
- Paech, S. J. (2023). EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models. arXiv.
ハブ記事