今回は、Langsmithを使ってRAGの精度を評価する手法をご紹介します。
1. 評価方法概要
評価方法自体は、以前紹介したragasとほぼ同じ内容ですが、評価指標は以下の4点となっています。
- Answer relevance (ユーザーの質問にどれだけ的確に答えているか)
- Retrieval relevance(クエリに対して取得された検索結果がどれだけ関連性が高いか)
- Correctness(正解の回答と比較して、RAGの回答がどれだけ正確か)
- Groundedness (取得したコンテキストにどれだけ基づいているか)
これらの評価は、質問、関連する参考ドキュメント(検索で取得したテキスト)、および回答が揃えば算出可能です。評価の流れとしては、いわゆる「LLM as a judge」(LLMに評価させる)という考え方に基づき、LLMが結果をどの程度要求を満たしているかを判断する仕組みになっています。
2. 試した結果
提供されているテストデータを使って、最も基本的なRAGシステムを構築し、Langsmithで評価してみました。実行後、結果確認用のURLが自動で立ち上がり、3件の質問に対する評価が約37秒で完了(GPT-4oを使用)しました。
上記のURLを開くと、Langsmithの画面で結果を詳細に確認できます。画面左から順に、質問、参考チャンク、最終出力結果、各評価指標のスコア、使用トークン数、費用が表示されます。
さらに、各項目をクリックすると詳細が拡大表示され、より深く内容を確認できます。
全体として、評価手法はragasとほぼ同様ですが、Langsmithはその運用を大幅に簡略化・パッケージ化しているため、RAGの評価だけを行うのであれば、Langsmithをワンクリックで実行するだけで十分に対応可能だと感じました。
興味ある方: