RAGの基礎を理解する Part2

Last updated at 2025-08-03Posted at 2025-08-03

はじめに

はじめまして、Orbitics株式会社データサイエンス部の上野です。

Part 1では、RAG（Retrieval-Augmented Generation）の基本的な概念、そのメリット、内部の処理フロー、そして既存の類似技術との比較について詳しく解説しました。RAGが大規模言語モデル（LLM）の能力をいかに高め、より信頼性の高い情報を生成する手助けをするか、その全体像をご理解いただけたかと思います。特に、LLMが持つ「ハルシネーション（Hallucination）」、つまり事実に基づかない情報を生成してしまう問題への有効な対策として、RAGが注目されている背景もお伝えしました。

本記事Part 2では、RAGシステムを実際に運用する上で避けて通れない品質評価の重要性に焦点を当てます。特に、人間の判断が不可欠となる手動評価に深く踏み込み、その具体的な評価指標やプロセスについて詳しく解説します。RAGシステムは導入すれば終わりではありません。継続的な改善と高い品質を維持するためには、適切な評価が不可欠です。RAGをより実践的に活用し、その真価を引き出すための知識を深めていきましょう。

1. RAGの品質評価

RAGシステムの品質評価は、その複雑な構造を理解した上で効率的に進める必要があります。一般的に、「生成」の評価を最優先で実施し、もし問題が見つかった場合は、「検索」と「拡張」の評価を通して根本原因を探るアプローチが効率的と考えられます。この評価プロセスにおいて、人間の専門的な判断が必要となる手動評価は特に重要な役割を担います。なぜなら、LLMの生成するテキストの「意味的な正確さ」や「文脈の適切さ」といった側面は、機械的な評価だけでは捉えきれないからです。

評価要素

RAGシステムの品質を評価する上で、以下の3つの要素を複合的に考慮します。特に手動評価は、「拡張」と「生成」の評価において、その真価を発揮します。

検索（Retrieval）: ユーザーの質問やプロンプトに対して、RAGシステムの肝となる知識ベース（ベクトルデータベースなど）から、関連性の高い情報を正確に取得できているかを確認するフェーズです。この部分が機能しないと、いくら高性能なLLMを使用しても、適切な回答は生成されません。
- 評価指標: この段階では、主に自動評価が用いられます。例えば、Precision（適合率） は、取得した情報の中にどれだけ関連性の高いものが含まれているかを示します。Recall（再現率） は、関連する情報全体のうち、どれだけ取得できたかを示します。また、F1スコア はPrecisionとRecallの調和平均であり、両方を考慮した総合的な評価指標です。その他にも、検索結果の順位を考慮するMean Reciprocal Rank(MRR) や、上位K件の検索結果に関連情報が含まれているかを見るHit Rate @k、検索結果の関連性と順位を考慮して評価するNormalized Discounted Cumulative Gain(NDCG@k) などが挙げられます。これらの指標を用いることで、膨大なデータからの情報検索の効率性と精度を客観的に評価できます。
拡張（Augmentation）: 検索された情報（コンテキスト）が、LLMへのプロンプトに適切に組み込まれているかを評価するフェーズです。単に情報を結合するだけでなく、LLMがその情報を最大限に活用できるよう、プロンプトの設計が重要になります。直接的な定量的評価が難しい場合もありますが、生成される回答の質を観察することで、間接的に手動で評価を行うことが可能です。
- 評価指標（手動評価）:
  - プロンプトの適切性: 検索された情報が、LLMに与えるプロンプトのどこに、どのような形で組み込まれているかを確認します。例えば、「以下の情報に基づいて回答してください：[検索結果] 、質問：[ユーザーの質問]」といった形式が適切か、情報がプロンプトの意図と合致しているかなどです。LLMが不適切な指示や情報を与えられた場合、その後の生成品質に悪影響を及ぼします。
  - 情報の網羅性: 検索された情報が、ユーザーの質問に対する回答に必要な要素を十分に含んでいるかを確認します。不足している情報がないか、あるいは過剰な情報が含まれていないかなどを評価します。例えば、ある製品のトラブルシューティングについて質問された場合、必要な手順がすべて含まれているか、あるいは全く関係のない製品情報が混ざっていないか、といった観点です。
  - 情報の冗長性: プロンプトに組み込まれた情報が、無駄に重複したり、必要以上に長すぎたりしていないかを評価します。冗長な情報はLLMの処理を複雑にし、かえって誤った回答を導く可能性もあります。例えば、同じ内容が複数の文書で繰り返し検索されてプロンプトに含まれるようなケースです。
  - 文脈の維持: 検索された情報が、元のユーザーの質問の文脈と乖離していないかを確認します。例えば、質問が「A社の最新の製品ラインアップは？」であるにも関わらず、検索結果が「B社の過去の製品」に関する情報ばかりであれば、拡張の段階で問題があると言えます。質問の意図を正確に捉え、それに合致する情報が提供されているかが重要です。
生成（Generation）: 最終的なRAGシステムの出力である回答の質を図る上で最も重要です。一般的なLLMの評価指標に加えて、RAG特有の側面も考慮し、主に手動評価でその品質を判断します。RAGシステムにおける生成の品質は、ユーザー体験に直結するため、最も厳しく評価されるべきポイントです。

「生成」における手動評価

「生成」における手動評価では、複数人の評価者が、事前に定義された各指標に対してスコアを付け、その平均や多数決によって品質を判断します。この複数人による評価は、評価の客観性と信頼性を高める上で非常に重要です。特にアウトプットの品質を担保する上で、正確性と関連性の指標はRAGシステムの信頼性を測る上で最も重要な要素となります。

正確性（Factuality/Faithfulness）: 生成された情報が、参照元の情報（RAGの場合は検索された文書や社内ナレッジなど）と矛盾していないか、事実に基づいているかの度合いを評価します。これは、LLMが生成するハルシネーション（幻覚） の有無を測る上で最も重要な指標の一つです。
- 評価の具体例: 例えば、「東京タワーの高さは333メートルです」というRAGシステムからの回答があったとします。評価者は、RAGが参照した情報源（例: 東京都の公式観光情報サイト）にアクセスし、実際に「東京タワーの高さが333メートルである」と記載されているかを確認します。もし参照元に「333メートル」と記載されていながら、RAGが「東京タワーの高さは300メートルです」と回答した場合、正確性が低いと判断され、ハルシネーションが発生していると記録されます。
関連性（Relevance）: 生成された回答が、元の質問やプロンプトに対して適切に答えているかの度合いを評価します。質問の意図を正確に理解し、それに応じた情報を提供しているかが重要です。
- 評価の具体例: ユーザーが「昨年のiPhoneの販売台数について教えてください」と質問した際に、RAGシステムが「Apple社の最新のMacBook Proの機能」について回答した場合、これは関連性が低いと判断されます。たとえMacBookの情報が事実に基づいていたとしても、質問の意図から外れているため、ユーザーにとっては有用ではありません。
具体性（Specificity）: 生成された回答が曖昧さや抽象性を避け、詳細で明確な情報を提供しているかの度合いを評価します。ユーザーが具体的な情報を求めている場合に特に重要となります。
- 評価の具体例: ユーザーが「健康に良い食品は何ですか？」と質問した際に、RAGシステムが「野菜や果物を食べましょう」とだけ回答した場合、具体性が低いと判断されます。「具体的にどのような野菜や果物が良いのか、あるいは調理法はどうか」といった詳細な情報がなければ、ユーザーの次の行動につながりにくいでしょう。より具体的な回答としては、「ビタミンCが豊富なブロッコリーや、食物繊維が豊富なオートミールなどが健康維持に役立ちます。特にブロッコリーは蒸して食べると栄養素を効率よく摂取できます」といった内容が望ましいです。
流暢性（Fluency）: 生成されたテキストが自然で読みやすい文章で構成されているかの度合いを評価します。文法的な誤り、不自然な言い回し、ぎこちない表現がないかが重要です。
- 評価の具体例: RAGシステムが「私は、昨日、公園に行った、そして、犬と遊んだ」のように句読点が不自然であったり、「彼の意見は私たちのチームのダイナミズムを向上させるために不可欠であると私は信じています」のような回りくどい表現を含む場合、流暢性が低いと判断されます。人間が読んで違和感なく理解できるかどうかが評価のポイントです。
簡潔性（Conciseness）: 生成された回答が必要以上に冗長でなく、要点を絞って簡潔に情報を伝えているかの度合いを評価します。
- 評価の具体例: ユーザーが「御社の営業時間」を尋ねた際に、RAGシステムが会社の歴史や事業内容、従業員数など、質問に直接関係のない情報を延々と羅列し、その最後に営業時間を記載した場合、簡潔性が低いと判断されます。ユーザーが求めているのは「月曜から金曜の午前9時から午後5時です」といった、単刀直入な回答です。
包括性（Completeness）: 生成された回答が、質問に対して必要な情報を網羅的に含んでいるかの度合いを評価します。特に複雑な質問や複数の側面を持つ質問に対して重要となります。
- 評価の具体例: ユーザーが「新製品の発売日と価格、そして購入方法について教えてください」と質問したとします。RAGシステムが発売日と価格は回答したものの、購入方法については全く触れていない場合、包括性が低いと判断されます。質問に含まれるすべての要素に対して、適切に回答できているかが評価されます。
有用性（Helpfulness）: 生成された回答が、ユーザーにとって実際に役立つ情報を提供しているかの度合いを評価します。正確性や関連性に加えて、回答がユーザーの疑問を解消し、次の行動につながるかどうかが重要です。
- 評価の具体例: ユーザーが「エアコンの調子が悪いのですが、どうすればいいですか？」と質問した際に、RAGシステムが「専門家に見てもらうのが良いでしょう」とだけ回答した場合、有用性が低いと判断されます。より有用な回答としては、「まずはエアコンのリモコンの電池を確認してください。次に、フィルターの掃除を試してみてください。それでも改善しない場合は、お近くのサービスセンターにご連絡いただくか、弊社のカスタマーサポートにお電話ください。連絡先はXXXX-XXXX-XXXXです。」のように、具体的な手順や選択肢を示すことが求められます。

2. 手動評価のメリット・デメリット

RAGシステムの品質評価において、手動評価は不可欠な要素ですが、その特性を理解しておくことが重要です。自動評価ツールでは捉えきれない、人間ならではの深い理解に基づいた評価が可能な一方で、コストや時間といった課題も存在します。

項目	内容
メリット	高精度な品質判断（文脈理解、常識、微妙なニュアンス、倫理的側面など、多角的な視点での評価が可能。特に正確性、関連性、有用性など、意味的な評価に優れる）、自動評価が困難な側面の評価（創造性、共感性、人間らしさなど、定量的評価が難しい側面を捉えられる）、新しいタスクへの適用（評価指標が確立されていない場合でも、人間の判断に基づいて評価が可能）
デメリット	高コストと時間（多くの評価者と時間を要するため、大規模なデータセットの評価には不向き）、主観性（評価者の知識、経験、バイアスによって評価結果が変動する可能性がある）、再現性の低さ（同じテキストでも、異なる評価者やタイミングで評価結果が異なる場合がある）、スケーラビリティの低さ（評価対象が増えるほど、コストと時間が比例して増加する）

項目

内容

メリット

高精度な品質判断（文脈理解、常識、微妙なニュアンス、倫理的側面など、多角的な視点での評価が可能。特に正確性、関連性、有用性など、意味的な評価に優れる）、自動評価が困難な側面の評価（創造性、共感性、人間らしさなど、定量的評価が難しい側面を捉えられる）、新しいタスクへの適用（評価指標が確立されていない場合でも、人間の判断に基づいて評価が可能）

デメリット

高コストと時間（多くの評価者と時間を要するため、大規模なデータセットの評価には不向き）、主観性（評価者の知識、経験、バイアスによって評価結果が変動する可能性がある）、再現性の低さ（同じテキストでも、異なる評価者やタイミングで評価結果が異なる場合がある）、スケーラビリティの低さ（評価対象が増えるほど、コストと時間が比例して増加する）

3. RAGにおける評価不足の対策

RAGシステムを構築する上で失敗する可能性が高いポイントの一つに「評価が不十分」であることが挙げられます。この問題は、システムの性能改善を妨げ、最終的にはユーザーの期待に応えられない結果を招きます。その主な原因と対策案は以下の通りです。

問題点	主な原因	対策案
評価が不十分	適切な評価指標の欠如、定性的な評価プロセスの欠如、人間による評価の不足	回答の正確性、流暢性などを評価する指標の定義と、それに基づくスコアリングガイドラインの作成。人間による評価の導入と継続的な実施、特に多様な評価者による多角的な視点の取り入れ。A/Bテストによる効果測定と、そこから得られたフィードバックの迅速なシステム改善への反映。

RAGシステムの品質を継続的に向上させるためには、人間の目によるきめ細やかな手動評価を組み合わせることが不可欠です。特に、ハルシネーションの検出や、回答のニュアンス、ユーザーにとっての有用性といった側面は、人間の判断が最も信頼できます。例えば、ある質問に対してRAGシステムが生成した回答が、表面上は正確に見えても、その表現がユーザーの感情を害する可能性がないか、あるいは意図しない誤解を招くような曖昧な表現が含まれていないか、といった点は人間でなければ判断が難しいでしょう。

まとめ

本記事Part 2では、RAGシステムを効果的に運用するための品質評価の重要性に焦点を当て、その中でも特に手動評価の役割と具体的な評価指標について詳細に解説しました。

RAGシステムは強力なツールである一方で、その真価を引き出すためには、適切な品質評価、特に人間の目による綿密な手動評価が不可欠です。ハルシネーションの検出、回答のニュアンス、そしてユーザーにとっての有用性といった側面は、自動評価では捉えきれない部分であり、人間の専門的な判断が最も信頼できます。

この手動評価の結果を基に、RAGシステムの各コンポーネント（検索、拡張、生成）を継続的に改善していくことが、より高品質で信頼性の高いRAGシステムを構築する鍵となります。本記事が、RAGシステムをより実践的に活用し、その成功に貢献するための一助となれば幸いです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up