LLM as a judgeとはなにか。
LLMを用いて、
LLMへのインプットとLLMの出力から、出力物の評価を出力するシステム。
タスクの学習方法
通常、タスクの定義にはIn context learningが使われる。
スコア生成
Yes / No question
ペアワイズ比較
選択制の問題
それが当てはまりますか?を聞く。
LLM as a judgeの実践
全体としては、手元にあるground truthへの評価と、新たな事例を得ての再評価を実施することで
改善を図っていく。
改善戦略
Optimizing Output Forms
そのままスコアを出させようとすると、フォーマットに沿わない出力をしたりするので、構造化された出力を要請するなどして出力を安定させる。
Integration of multiple Evaluation results
偶発的なエラーやランダムの影響を軽減するために、複数回出力の結果を集計(平均など)する。
DirectOptimizationofLLNPutputs
出力スコアに後処理を加えることで、指標としてより最適なものにする。
(スコア平滑化など)
評価器の指標
基本指標
アラインメント
(ほかには、CohenのKappaやスピアマンの相関係数など。)
バイアス
バイアスの無い評価ができているか?
- ポジションバイアス(特定の位置にある応答を好む傾向)
- 長さバイアス(長い / 短い応答をより好む)
- 自己高揚バイアス(自分の作成した文章をより好む)
- 評価者と同じモデルを用いない、などの工夫が必要
- そのほかのバイアス
- 性別、人種、性的指向
- (絵文字など)視覚的に魅力的なコンテンツ
- 具体性バイアス(権威のある情報源、数値をより好む)
- 権威バイアス、引用バイアスとも。
- 感情バイアス
- 怒り、悲しみなど特定の感情を好む傾向
敵対頑健性
高いスコアを得ることを目的に作られた入力にモデルが耐える能力