検証データ
質問(question)、文脈(context)、watsonx.ai/mistral-large-2による生成回答(generated_text)、およびazure OpenAI/GPT-3.5-turbo模範回答(reference_text)を含む検証データを、RAG-Evaluation-Dataset-JAを参考に構築しました(以下参照)。
https://qiita.com/onoyu1012/items/b8cec33c2aa99765013c
プロンプトテンプレートの作成
watsonx.aiのPrompt Labでプロンプト・テンプレートを作成&保存。
評価実施
Evaluateをクリック、検証データをアップロードして評価実施。