More than 1 year has passed since last update.

マルチモーダルRAGに関する情報まとめ

Last updated at 2023-12-17Posted at 2023-12-14

■ はじめに

　現在、LLMの活用において専門的な分野に対応したRAG (Retrieval Augmented Generation)：検索拡張生成 が話題となっている状況だと思います。よくファインチューニングと比較されますが、追加学習の必要性がない・コストもかからない・更新も楽なことからLLM回答精度を向上させることできる点で、着目されております。

・RAGとファインチューニングの比較解説記事

今年に、マルチモーダルGPT4Vが登場したことから、以前はテキストベースのみで適用されていたRAGについてもマルチモーダルへの適用化が求められているため、その情報を収集したものを簡単ですがまとめました。

■ RAG : Retrieval Augmented Generation

RAG自体についてはこちらの解説などがわかりやすいので参考まで。

■ マルチモーダルRAGについて

これまでテキストのみの情報であれば、RAGに組み込む際にベクトルDBとして情報を保存します。これが異なるデータ(画像、テキスト、テーブル)の場合にどのように統合して保存するかがポイントのようです。既に色々な情報があるようで、それぞれの解説ページを参照して頂ければと思います。

① Multivector Retrieverを使ったPDFの画像まで含めた検索システム実装

② 別解説記事：上記と参照している大本は同じ

③ LangChainのテンプレート活用事例
・中身の解説はないがすぐに試せるコードがいくつかあるよう。こちらもPDF対象

④ LlamaIndex のマルチモーダルRAG
・Wikipediaからの画像・テキスト情報収集を行い、統合してベクトルDB化処理を行う。Jupiter codeもあり、動作確認とプロセスが理解しやすい内容でした。

動作するにあたって、pydanticのダウングレードが必要でした。
　!pip install pydantic==1.10.9

・マルチモーダルRAGの解説記事

⑤ 他LlamaIndex のマルチモーダルRAG活用

■ その他マルチモーダルLLMの活用調査

GPT4Vの限界挑戦・できること、できないことの調査内容の情報
マルチモーダルRAGを今後広げていく上でのヒント多数。座標情報やセグメントの弱い部分の補強の仕方などなど

🔳その他画像ベクトル検索

・Computer Vision 使った画像のベクトル化と検索の事例

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up