0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

はじめに

  • OpenAIのEval Frameworkは、大規模言語モデル(LLM)を評価するためのツールである
    • LLMの評価は難しい課題であり、信頼性の高い比較方法の開発が必要とされている
    • OpenAIがLLMの性能を確保するために内部で使用していたフレームワークをオープンソース化した

Evalの仕組み

  • Evalとは、言語モデルの特定の領域におけるパフォーマンスを測定するための評価タスク
    • 質問応答や感情分析などの標準化されたベンチマークである
    • 異なる言語モデルの比較を可能にする
  • EvalはYAMLファイルでデータセットとEvalクラスを定義することで構成される
  • Evalを実行するには、oaieval CLIを使用し、完了関数とEvalの名前を指定する

カスタムEvalの作成方法

  • 既存のテンプレートを使用してカスタムEvalを構築する手順は以下の通りである
    1. サンプルデータをJSONL形式で用意する
    2. evals/registry/evals/.yamlファイルにEvalを登録する
  • 完了関数を構築することで、モデルが正確に答えるために必要な操作を定義できる
    • 完了関数はCompletionFn URLsまたはOpenAI APIのモデル名で指定する
    • すべてのEvalと互換性を持つには、いくつかのインターフェースを実装する必要がある

Eval Frameworkの利点

  • 標準化された評価指標とベンチマークを提供する
  • 使いやすく、わずかなコードですぐに使用できる
  • 柔軟性があり、幅広いタスクやベンチマークでモデルを評価できる
  • オープンソースであり、研特定のニーズに合わせて使用・修正できる
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?