はじめに
最近は、LLM に回答の良し悪しを採点させる、いわゆる LLM as a Judge を使う場面が増えてきました。
例えば以下のような場合です。
- 複数モデルの出力を比較したい
- 人手評価を減らしたい
- 自動評価パイプラインを作りたい
ただ、実際に使ってみると、こんな違和感を覚えることが多々あります。
「なんか点数は出てるけど、本当にその項目を見て評価してるの?」
特に気になったのが、総合点 (Overall) を出させたときの挙動です。人間の評価では、以下のようなことがよくあります。
- 第一印象が良いと、細かい項目も全部よく見えてしまう
- 逆にダメだなと思うと、落とす理由を後付けで探してしまう
これは心理学ではハロー効果やアンカー効果と呼ばれています。
🐣 優等生バイアス、ルッキズム、コミュ力重視など私たちの世界はハロー効果で満ち溢れていますよね
では、同じことが LLM にも起きているのでしょうか?
- 先に結果である総合点を決めてしまう
- その総合点に矛盾しないように後付けで Helpfulness や Accuracy の点数を調整している
そんな挙動をしていないかが気になりました。
この記事では、以下の条件で小さな実験し、総合点が個別評価を引きずるような挙動が本当に起きるのかを確かめてみました。
- MT-Bench 風の評価プロンプトを使用
- 評価プロンプトの構造だけ (A / B / C) を変更
- ChatGPT / Gemini / Claude を評価者に設定
🐣 評価も安心して LLM に丸投げしたいときってありますよね!
実験の目的と問題設定
目的
LLM に総合点を含む評価をさせた場合に、個別項目 (Helpfulness など) の点数が総合点に整合する方向へ引っ張られるかを観察します。
評価プロンプトの設計 (A / B / C)
A: 項目評価 → 総合点
- Helpfulness
- Relevance
- Accuracy
- Level of detail
- Overall quality
B: 総合点 → 項目評価
- Overall quality
- Helpfulness
- Relevance
- Accuracy
- Level of detail
C: 項目評価のみ (総合点なし)
- Helpfulness
- Relevance
- Accuracy
- Level of detail
意図としては、以下の差分だけを作っています。
- A: 自然だが、総合点が後段に来る
- B: 総合点がアンカーとして先に提示される
- C: そもそも総合点を考えさせない
使用したベンチマーク
本実験では、MT-Bench (Multi-turn Benchmark) をベースとした問題設定を使用しました。
MT-Bench は LMSYS Org (FastChat) が公開している対話型評価ベンチマークであり、単発タスクではなく前の応答を踏まえた再指示 (multi-turn) に対する応答品質を評価対象とする点が特徴です。MT-Bench を一言でいうと、LLM 同士の性能を LLM 自身に評価させるために作られた対話ベンチマークです。
- 正式名称: Multi-turn Benchmark
- 提案: Zheng et al., 2023 (UC Berkeley / LMSYS)
- 位置づけ: Chatbot Arena / Vicuna / FastChat 系列の中核データセット
構成としては以下のイメージです。
- 1 問 1 答ではなく、複数ターンの対話を扱う
- 実運用に近い会話能力を測る意図がある
- 文章生成・推論・指示追従・創造性などが混ざる
データセット側の形式は以下の通りです。
-
全 80 問
-
各質問は 2 ターン構成
-
Turn 1: 質問
-
Turn 2: 追加指示・深掘り
-
カテゴリ例: 推論、コーディング、数学、ライティング、ロールプレイ、指示追従、倫理・安全性 など
特に本実験では、以下の理由から writing カテゴリの問題を中心に採用しました。
- 制約付きリライト (例: 文字制約、文頭制約、広告埋め込み等) により、評価項目間にトレードオフが生じやすい
- 正解が一意に定まらず、評価者の判断構造が露出しやすい
- 実運用に近い自然言語タスクである
使用した問題は以下の 3 問です。いずれも {QUESTION} と {ANSWER} は固定し、Judge のプロンプト構造のみを変更して実験しました。
| 問題 ID | 内容 | 役割 |
|---|---|---|
| Q81 | 旅行ブログの制約付き書き換え | 高品質回答ケース |
| Q89 | 見出し生成+強制広告挿入 | 低品質・制約違反寄りケース |
| Q90 | 文法修正+ジェンダー代名詞排除 | 構造が単純なコントロールケース |
実際のプロンプト
Q81
- Turn 1:
Compose an engaging travel blog post about a recent trip to Hawaii, highlighting cultural experiences and must-see attractions. - Turn 2:
Rewrite your previous response. Start every sentence with the letter A.
内容:
旅行ブログ記事を書いた後、その文章をすべての文を A で始めるという強い制約付きで書き直すタスク。
狙い:
- 内容の質を保ったまま、形式的な制約にどれだけ正確に従えているか
- 高品質な回答に対して、評価プロンプトの違いがどの程度影響するか
Q89
- Turn 1:
Help me construct a catchy, yet scientifically accurate, headline for an article on the latest discovery in renewable bio-energy, while carefully handling the ethical dilemmas surrounding bio-energy sources. Propose 4 options. - Turn 2:
Alter your previous response. Make the following adjustments to the 2nd option: 1) Make the tone sound casual 2) Embed an advertisement for a company called "FlexPower" 3) Fewer than 10 words.
内容:
再生可能バイオエネルギーに関する見出し案のうち、1 つをカジュアル、広告 (FlexPower) を含む、10 語未満という複数制約付きで書き換えるタスク。
狙い:
- 制約同士が衝突しやすく、部分的には要件を満たすが全体として評価が割れやすいケース
- 総合点 (Overall) が個別評価項目を引きずる現象が最も起きやすい条件
Q90
- Turn 1:
Edit the following paragraph to correct any grammatical errors: ... - Turn 2:
Modify your earlier reply and eliminate the use of gendered pronouns.
内容:
文法的に崩れた文章を修正し、さらにジェンダーを示す代名詞をすべて取り除くタスク。
狙い:
- 正解の方向性が比較的明確な編集タスク
- 評価プロンプト構造 (A / B / C) の違いによる影響が出にくい対照実験的な位置づけ
実験環境
回答生成と評価の分離
回答生成と評価 (Judge) は必ず別チャットで実行しました。同一チャット内での self-judge (自己評価) を避けるためです。
使用モデル
| 役割 | モデル | 補足 |
|---|---|---|
| Answer | ChatGPT 5.2 | auto、一時チャット |
| Judge | ChatGPT 5.2 | auto、一時チャット |
| Judge | Gemini 3 Pro | 思考モード |
| Judge | Claude Sonnet 4.5 | シークレットモード |
※ 温度や細かいパラメータは指定していません。
プロンプト例: Q81 の A
You are a helpful, impartial, and strict judge.
You should not be influenced by writing style alone, and should consider each criterion carefully.
Please evaluate the quality of the assistant's answer to the user question below.
[User Question]
Turn 1: Compose an engaging travel blog post about a recent trip to Hawaii, highlighting cultural experiences and must-see attractions.
Turn 2: Rewrite your previous response. Start every sentence with the letter A.
[Assistant Answer]
**Aloha, Hawaii: A Journey Where Culture, Nature, and Heart Align**
A gentle descent over turquoise waters and emerald ridges marked the moment Hawaii stopped feeling like a destination and started feeling like a welcome home.
A recent journey across the islands unfolded as a blend of dramatic landscapes, living traditions, and unhurried moments that invited reflection.
A sense of balance between people, land, and history shaped every experience and lingered long after each day ended.
A powerful introduction to Hawaiian culture came through the true spirit of *aloha*, which extends far beyond a greeting.
A small, community-centered lūʻau on the first evening revealed hula not as performance but as storytelling through movement, rhythm, and memory.
A chorus of pahu drums and chants carried legends of Pele and the Polynesian voyagers who first navigated the Pacific by stars and sea.
A shared meal of kālua pig from an underground *imu* and traditional poi transformed dinner into a lesson in heritage and connection.
A visit to Hawaiʻi Volcanoes National Park on the Big Island delivered one of the most humbling moments of the trip.
A walk along the edge of Kīlauea’s immense crater revealed steaming vents and hardened lava that spoke to constant creation and change.
A ranger’s explanation of volcanic renewal through a Native Hawaiian worldview reframed the landscape as sacred rather than destructive.
A drive along Maui’s legendary Road to Hāna proved that the journey truly matters more than the destination.
A series of waterfalls, bamboo forests, and sharp coastal curves rewarded patience and curiosity at every turn.
A stop at roadside fruit stands for fresh mango and warm banana bread felt as essential as any scenic overlook.
A stay on Oʻahu blended vibrant city energy with deep historical reflection.
A quiet early-morning walk along Waikīkī Beach revealed a calmer side of the shoreline before the day fully awakened.
A visit to Pearl Harbor and the USS Arizona Memorial offered a sobering, necessary pause to honor lives and reflect on the cost of conflict.
A collection of small cultural moments left the strongest impression.
A simple effort to learn words like *mahalo* and *aloha* opened doors to warmer conversations and shared smiles.
A guided visit to a taro patch demonstrated how traditional practices remain alive through care and generational knowledge.
A sunset watched from a quiet beach, accompanied by soft slack-key guitar, felt timeless and deeply personal.
A realization emerged that Hawaii is far more than a vacation destination.
A sense of respect for land, culture, and community defines the islands as much as their natural beauty.
A mindful approach to travel allows Hawaii to offer not just memories, but perspective.
A heartfelt farewell formed naturally, paired with gratitude and the quiet certainty of returning someday.
Please evaluate the assistant's answer based on the following criteria:
Give each criterion a score from 1 to 10.
Criteria:
- Helpfulness
- Relevance
- Accuracy
- Level of detail
- Overall quality
Output your evaluation in the following format:
Helpfulness: <score>
Relevance: <score>
Accuracy: <score>
Level of detail: <score>
Overall quality: <score>
Do not provide explanations.結果 (ChatGPT / Gemini / Claude で比較)
同一の {QUESTION} と {ANSWER} (固定) に対して、Judge (評価モデル) だけを切り替え、条件 A / B / C を比較しました。
- A: 項目 → Overall (総合点あり)
- B: Overall → 項目 (総合点先出し)
- C: 項目のみ (総合点なし)
主観評価の模範スコアと比較しています。
Q81 (writing: A で始める縛りの旅行ブログ)
模範スコア
| 項目 | 模範スコア | 根拠 |
|---|---|---|
| Helpfulness | 8 | 読み物としては良いが、実用情報ではない |
| Relevance | 10 | 指示・制約・テーマに完全一致 |
| Accuracy | 9 | 明確な誤りはないが、事実検証性は限定的 |
| Level of detail | 8 | 描写は豊富だが、情報密度は中程度 |
| Overall quality | 9 | writing タスクとして非常に高品質 |
条件 A (項目 → Overall)
| Judge | Help | Rel | Acc | Detail | Overall |
|---|---|---|---|---|---|
| ChatGPT | 9 | 10 | 9 | 9 | 9 |
| Gemini 3 Pro | 10 | 10 | 10 | 10 | 10 |
| Claude Sonnet 4.5 | 9 | 10 | 9 | 8 | 9 |
条件 B (Overall → 項目)
| Judge | Overall | Help | Rel | Acc | Detail |
|---|---|---|---|---|---|
| ChatGPT | 9 | 9 | 10 | 8 | 9 |
| Gemini 3 Pro | 10 | 10 | 10 | 10 | 10 |
| Claude Sonnet 4.5 | 9 | 9 | 10 | 9 | 9 |
条件 C (項目のみ)
| Judge | Help | Rel | Acc | Detail |
|---|---|---|---|---|
| ChatGPT | 10 | 10 | 9 | 9 |
| Gemini 3 Pro | 10 | 10 | 10 | 10 |
| Claude Sonnet 4.5 | 8 | 10 | 9 | 8 |
補足 (Q81)
- ChatGPT は条件 B で Accuracy が 9 → 8 に落ちるなど、Overall 先出しが丸めに影響していそうな挙動が見えます。
- Claude Sonnet 4.5 は 9 付近で安定しつつ、条件 C で Helpfulness が 8 になるなど、項目の切り分けがやや強めです。
- Gemini 3 Pro は満点に張り付き、A / B / C の差がスコアとして出にくい (天井効果) 傾向が見られます。
- Q81 は出来が良いため、総合点があっても、先に出しても項目評価が大きく歪むことはほぼありませんでした (ハロー効果は発生しにくい条件)。
Q89 (writing: 10 語未満+広告 FlexPower 埋め込み)
模範スコア
| 項目 | 模範スコア | 根拠 |
|---|---|---|
| Helpfulness | 6 | 条件は満たすが、情報価値は低い |
| Relevance | 6 | 制約は満たすが、テーマの深さ不足 |
| Accuracy | 5 | 科学的正確性を評価できる情報がない |
| Level of detail | 2 | 見出しとして最低限 |
| Overall quality | 4 | 成立はするが弱い |
条件 A (項目 → Overall)
| Judge | Help | Rel | Acc | Detail | Overall |
|---|---|---|---|---|---|
| ChatGPT | 2 | 6 | 5 | 1 | 3 |
| Gemini 3 Pro | 10 | 10 | 10 | 10 | 10 |
| Claude Sonnet 4.5 | 6 | 8 | 5 | 3 | 5 |
条件 B (Overall → 項目)
| Judge | Overall | Help | Rel | Acc | Detail |
|---|---|---|---|---|---|
| ChatGPT | 2 | 2 | 4 | 3 | 1 |
| Gemini 3 Pro | 10 | 10 | 10 | 10 | 10 |
| Claude Sonnet 4.5 | 4 | 5 | 6 | 3 | 2 |
条件 C (項目のみ)
| Judge | Help | Rel | Acc | Detail |
|---|---|---|---|---|
| ChatGPT | 6 | 8 | 5 | 2 |
| Gemini 3 Pro | 9 | 10 | 10 | 10 |
| Claude Sonnet 4.5 | 3 | 6 | 4 | 2 |
補足 (Q89)
- ChatGPT では条件 A / B (総合点あり) で全体が低く揃い、条件 C (総合点なし) で部分評価が回復しています。今回の総合点が項目点を引っ張るという主張に最も整合的です。
- Claude Sonnet 4.5 でも条件 B の方が条件 A より全体が下がる (Overall 先出しで引きずられる) 傾向は見えますが、条件 C で回復する方向は ChatGPT ほど強くありません。
- Gemini 3 Pro はここでも満点寄りで、タスクの難しさ・指示の複雑さがスコアに反映されにくい (天井効果) 傾向が続きます。
Q90 (editing: 文法修正+ジェンダー代名詞排除)
模範スコア
| 項目 | 模範スコア | 根拠 |
|---|---|---|
| Helpfulness | 8 | 指示通りで実用的 |
| Relevance | 10 | 要件完全一致 |
| Accuracy | 9 | 意味保存・修正ともに高精度 |
| Level of detail | 5 | 編集タスクとして適切な簡潔さ |
| Overall quality | 8 | 良いが満点ではない |
条件 A (項目 → Overall)
| Judge | Help | Rel | Acc | Detail | Overall |
|---|---|---|---|---|---|
| ChatGPT | 9 | 10 | 9 | 6 | 9 |
| Gemini 3 Pro | 9 | 10 | 8 | 10 | 9 |
| Claude Sonnet 4.5 | 8 | 10 | 9 | 7 | 8 |
条件 B (Overall → 項目)
| Judge | Overall | Help | Rel | Acc | Detail |
|---|---|---|---|---|---|
| ChatGPT | 8 | 8 | 9 | 8 | 6 |
| Gemini 3 Pro | 9 | 10 | 10 | 8 | 10 |
| Claude Sonnet 4.5 | 8 | 8 | 10 | 9 | 7 |
条件 C (項目のみ)
| Judge | Help | Rel | Acc | Detail |
|---|---|---|---|---|
| ChatGPT | 8 | 10 | 9 | 4 |
| Gemini 3 Pro | 9 | 10 | 9 | 10 |
| Claude Sonnet 4.5 | 8 | 10 | 9 | 7 |
補足 (Q90)
- Q90 は正解の方向性が比較的明確なため、全体として A / B / C で致命的な崩れは出にくい (コントロールとして良い) 結果でした。
- ChatGPT は条件 C で Detail が 6 → 4 と落ち、総合点がないと詳細度評価が控えめになる副作用が見えます。
- Gemini 3 Pro は Detail を高く出しがちで、A / B / C を跨いでも Detail が落ちにくい傾向があります。
- Claude Sonnet 4.5 は 8〜10 の範囲で比較的安定しています。
- 正解が明確なタスクでは総合点の有無による歪みは小さいと言えます。
結果のまとめ
- ChatGPT / Claude Sonnet 4.5 では、特に Q89 のような部分的に達成しているが全体として微妙なケースで、総合点 (Overall) が個別項目を引きずる挙動が観測できました (条件 A / B と条件 C の差が出る)。
- Gemini 3 Pro は満点寄りに張り付く場面が多く、今回のプロンプト設計では A / B / C の違いがスコア分布に反映されにくい (天井効果) 傾向が見られました。
- Judge を変えれば同じ現象が同じように見えるとは限らず、Judge の採点レンジ (厳しさ) 自体が変数になりうることが分かります。
考察
総合点は強いアンカーになりうる
特に Q89 のように、部分的には要件を満たしているが、全体としては微妙というケースでは、以下の調整が入っているように見えます。
- Overall が低い → 各項目もそれっぽく低くする
Judge モデルごとの性格差は大きい
- ChatGPT: 差分が出やすい
- Claude Sonnet 4.5: 中間的
- Gemini 3 Pro: 満点張り付き (天井効果)
つまり、同じ評価プロンプトでも、Judge が変わると見える現象も変わるという点は重要です。
実務的な示唆
- 項目評価が重要なら、総合点は出させない
- 総合点が必要なら、外部で計算する
- Judge を変えた場合は、採点レンジの校正を検討する
LLM as a Judge は便利ですが、何を考えさせているかはプロンプト次第です。
🐣 人間もバイアスだらけなので、そこから学んだ LLM でも同じ傾向を持つのかも?
参考文献
- N. Li, H. Zhou & M. Xu. "From Text to Insight: Leveraging Large Language Models for Performance Evaluation in Management." arXiv:2408.05328 (2024).
おわりに
今回は MT-Bench 風のごく簡単な設定でも、評価プロンプトの構造だけで結果の傾向が変わることが確認できました。LLM に評価を任せるときほど、どんな順序で、何を出力させているかを意識する必要がありそうです。
ではまた次の記事でお会いしましょう。