【論文流し読み】2024_A Survey on LLM-as-a-Judge

Last updated at 2025-03-29Posted at 2025-03-29

LLM as a judgeとはなにか。

LLMを用いて、
LLMへのインプットとLLMの出力から、出力物の評価を出力するシステム。

通常、タスクの定義にはIn context learningが使われる。

何点ですか？と聞く。

どちらがいいですか？と聞く。

それが当てはまりますか？を聞く。

全体としては、手元にあるground truthへの評価と、新たな事例を得ての再評価を実施することで
改善を図っていく。

そのままスコアを出させようとすると、フォーマットに沿わない出力をしたりするので、構造化された出力を要請するなどして出力を安定させる。

偶発的なエラーやランダムの影響を軽減するために、複数回出力の結果を集計（平均など）する。

出力スコアに後処理を加えることで、指標としてより最適なものにする。
(スコア平滑化など)

人間の評価と評価器の評価が一致した割合

（ほかには、CohenのKappaやスピアマンの相関係数など。）

バイアスの無い評価ができているか？

高いスコアを得ることを目的に作られた入力にモデルが耐える能力