はじめに
- OpenAIのEval Frameworkは、大規模言語モデル(LLM)を評価するためのツールである
- LLMの評価は難しい課題であり、信頼性の高い比較方法の開発が必要とされている
- OpenAIがLLMの性能を確保するために内部で使用していたフレームワークをオープンソース化した
Evalの仕組み
- Evalとは、言語モデルの特定の領域におけるパフォーマンスを測定するための評価タスク
- 質問応答や感情分析などの標準化されたベンチマークである
- 異なる言語モデルの比較を可能にする
- EvalはYAMLファイルでデータセットとEvalクラスを定義することで構成される
- Evalを実行するには、oaieval CLIを使用し、完了関数とEvalの名前を指定する
カスタムEvalの作成方法
- 既存のテンプレートを使用してカスタムEvalを構築する手順は以下の通りである
- サンプルデータをJSONL形式で用意する
- evals/registry/evals/.yamlファイルにEvalを登録する
- 完了関数を構築することで、モデルが正確に答えるために必要な操作を定義できる
- 完了関数はCompletionFn URLsまたはOpenAI APIのモデル名で指定する
- すべてのEvalと互換性を持つには、いくつかのインターフェースを実装する必要がある
Eval Frameworkの利点
- 標準化された評価指標とベンチマークを提供する
- 使いやすく、わずかなコードですぐに使用できる
- 柔軟性があり、幅広いタスクやベンチマークでモデルを評価できる
- オープンソースであり、研特定のニーズに合わせて使用・修正できる