ベクトル化なしのRAG：Long-Context RAGについて

Posted at 2025-08-09

昨日の GPT-5 発表をきっかけに、OpenAI の Cookbook をいろいろ読みました。面白い記事がたくさんあり、その中で GPT-4.1 の活用を紹介している記事に、興味深い RAG の手法が載っていたので紹介します。

こちらの Long-Context RAG for Legal Q&A の箇所です。

Long-context についてざっくり言うと、LLM のコンテキストが十分に長ければ RAG は不要で、一度にすべて読み込めばよいという発想です。とはいえ、LLM の特性上、長文脈を与えても“忘れ”に近い挙動や参照漏れは起こり得ます。
この Long-Context RAG は、長文脈と RAG を組み合わせた折衷的なアプローチで、具体的なワークフローは下図のとおりです。

特徴的なのは、LLM によるHierarchical Navigationという考え方です。
まず文書を分割し、非常に巨大なテキストをおよそ 20 個の大きなチャンクに切り分けます。次に、各チャンクとユーザーの質問を一緒に LLM に渡して粗いスクリーニングを行います。
その後、選ばれた大きなチャンクをさらに細かく分割（3〜5 個など）し、追加のスクリーニングをかけます。こうして段階的に絞り込みを進める一方で、LLM はなぜそのチャンクを選んだのかという理由（scratchpad）も生成し、後続の処理で追跡できるように引き継ぎます。
また、ハルシネーションを防ぐため、テキストの読み込み時点で各チャンクに ID を付与しておき、LLM はチャンクの ID のみを出力するように制約します。

次は回答生成です。ここからは普通の RAG と同じで、絞り込まれた複数のチャンクを参照して LLM に回答を生成させます。さらに検証フェーズ（LLM-as-judge）が追加されており、o4-mini のような推論が得意なモデルで結果の正しさを判定します。

全体としては以上のような流れで、ベクトル化なしで実現する RAG です。Cookbook にはメリット／デメリットも整理されています。

メリットは精度が高いこと。デメリットは処理時間がやや長く、トークン消費も増える点です。GraphRAG に少し近い方向性で、処理時間を犠牲にしてでも精度を取りにいくイメージです。記事で挙げられている法務のように高い精度が求められる領域とは相性が良いかなと思います。

興味のある方は OpenAI の Cookbook もぜひ。GPT-5 関連などほかの内容もよくまとまっています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up