【一言で言うと】
FAQタスクのRAG運用において、LLMのfine-tuningの有用性を調査した
【タイトル/URL】
「RAGにおけるLLMの学習と評価:FAQタスクへの応用」
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P5-5.pdf
【まとめ】
この論文ではAmebaブログのヘルプページにあるFAQデータをQuestion Generationを用いて拡張し,手作業で回答を作成。さらに問題の難しさを関連文章の出現によってeasyとhardに分類という非常に大変な手作業でデータセットを作成している
このデータセットに対してGPT-4やELYZAなどの9個のモデルで評価を行った
評価指標はRagasのAnswer relevancyとBERT scoreを使用
【感想】
驚いたことに,表1ではほとんどのスコアでRAG>LoRAとなっている。問題によってはfine tuningに匹敵する性能向上をRAGで達成できると言うことなので,計算資源のない組織にとってはありがたい結論