0

生成AIに関する記事を書こう！

Qiita Engineer Festa20242024年7月17日まで開催中！

TIS株式会社

OpenAIのEval Frameworkについて

Posted at 2024-06-22

はじめに

OpenAIのEval Frameworkは、大規模言語モデル(LLM)を評価するためのツールである
- LLMの評価は難しい課題であり、信頼性の高い比較方法の開発が必要とされている
- OpenAIがLLMの性能を確保するために内部で使用していたフレームワークをオープンソース化した

Evalの仕組み

Evalとは、言語モデルの特定の領域におけるパフォーマンスを測定するための評価タスク
- 質問応答や感情分析などの標準化されたベンチマークである
- 異なる言語モデルの比較を可能にする
EvalはYAMLファイルでデータセットとEvalクラスを定義することで構成される
Evalを実行するには、oaieval CLIを使用し、完了関数とEvalの名前を指定する

カスタムEvalの作成方法

既存のテンプレートを使用してカスタムEvalを構築する手順は以下の通りである
1. サンプルデータをJSONL形式で用意する
2. evals/registry/evals/.yamlファイルにEvalを登録する
完了関数を構築することで、モデルが正確に答えるために必要な操作を定義できる
- 完了関数はCompletionFn URLsまたはOpenAI APIのモデル名で指定する
- すべてのEvalと互換性を持つには、いくつかのインターフェースを実装する必要がある

Eval Frameworkの利点

標準化された評価指標とベンチマークを提供する
使いやすく、わずかなコードですぐに使用できる
柔軟性があり、幅広いタスクやベンチマークでモデルを評価できる
オープンソースであり、研特定のニーズに合わせて使用・修正できる

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0