中国のSNSでlangchainでPDFデータをうまくRAGする手法の記事を読みました。
PDFデータにRAGを適用する際に、よくある問題は、PDF内にテーブルが存在すること、またはテーブルが画像形式で含まれていることです。これらのテーブルを適切に分解せずにembeddingすると、モデルの性能がかなり下がります。今まであまりよい解決方法なくて、PDFのRAG処理はいつも難しかったです。
この人が考えてた手法は、OCR作業(tableの部分を識別)と普通のテキストembeddingを同時に進めて、その後langchainの「MultiVectorRetriever」を使えてRAGするやり方です。MultiVectorRetrieverは複数のembeddingのRAGを同時に実行できるものです。MultiVectorRetrieverをマルチモーダルで使うことは意外にいけます。
(少し複雑なタスクなので、GPT4以外はまだうまく対応できないような感じです。)
