具体的なプロンプト例
『CoVe(Chain-of-Verification)』を実行するためにユーザーが行うことは、初期の質問プロンプトにて、以下のようにLLMへの指示を追加することです。
ユーザー:
[質問]
1. まずは上記の問いに対して、回答の初稿を作成してください。
2. 回答を細かく分解して複数の小さな問い(検証質問)を生成してください。
3. それぞれの小さな問いに対して細かく回答してください。
上記のように自発的な検証を促すプロンプトによって、回答の質が上がります。
なお。ChatGPTのようなインタフェースでは上記で実行できますが、システムにあらかじめ組み込む場合も考えられます。
実験結果
本フレームワークによって回答の質が向上する(ハルシネーションが減る)ことが以下のように示されています。
① Wikidataタスクにおいて、Llama 65Bのfew-shotベースライン(0.17)から大幅に精度を向上させ、0.36に達した
② MultiSpanQAにおいて、F1スコアがfew-shotベースライン(0.39)から23%向上し、0.48になった
③ ネガティブな回答(ハルシネーション)が2.95から0.68に減少した
④ 長文生成においても、FACT SCOREが28%向上した
引用元