最新のRAG検索？「RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder for Language Modeling」

Last updated at 2023-12-17Posted at 2023-12-16

はじめに

論文「RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder for Language Modeling」では、現在の検索機能付き言語モデル2つの主要な課題を概説し、それらに対処するためにRegaVAEを提案しています。検索の方法として、Explicit Aggregation（明示的集約）と、Implicit Aggregation（暗黙的集約）の２つの種類が紹介されています。Explicitな方法として、代表的なものがRAGがあげられます。RAGに関しては、別記事で整理しましたので、興味ある方はこちらの記事も見ていただけるとうれしいです。

コード

背景：現在の検索補強言語モデルの2つの主要な課題

検索時には、現在の意味情報だけでなく、将来の意味情報も考慮する必要がある
検索された文書とソーステキストを明示的に集約することは、モデル入力の長さによって制限され、ノイズが多すぎる

課題解決：RegaVAEの提案

RegaVAEは、Retrieval-Augmented Gaussian Mixture Variational Auto-Encoderの略で、言語モデリングのための新しい手法です。RegaVAEは、Variational Auto-Encoder（VAE）をベースにしたリトリーバル拡張言語モデルで、テキストコーパスを潜在空間にエンコードし、ソーステキストとターゲットテキストの現在と未来の情報を捉えます。

現在と未来の情報を暗黙的に結合する検索手法を提案する。これは、Query、Key、Valueの部分に未来の情報を同時に導入することで、文書の類似度が高いほど、生成者にとって有益になるようにするものです。
変分オートエンコーダ（VAE）と検索生成の確率論的フレームワークを統合し、効率的なアグレグリーメントを行う。
実験によれば、RegaVAEは品質、多様性、幻覚の排除において競争力がある。

モデルのアーキテクチャ

（ChatGPT4で翻訳）
トレーニングデータに基づいて、まずはVAE（変分オートエンコーダ）をトレーニングして、コンパクトな潜在空間を構築します。これにより、潜在変数zが現在および将来の情報の両方を含むようになります（§ 3.1参照）。次に、検索データベースを構築し、そこから取得した情報をジェネレータに統合します（§ 3.2参照）。VAEのエンコーダとデコーダのパラメータは全てのステップで同じです。公平を確保するために、トレーニングセット内のコーパスデータとソースデータは同じものを使用します。Gはガウス混合分布を表し、πはそれに対応するパラメータです。

制約事項

モデルのアーキテクチャから推測できる通り、残念ながら、大規模言語モデル（LLM）での利用今後の課題のようです。

現在の大規模な言語モデルは、大規模なコーパスで事前学習されており、計算リソースの制約のために、RegaVAEを大規模なコーパスで事前学習することはできません。これにより、パフォーマンスが低下する可能性があります。さらに、モデルは事後崩壊問題のために安定していないため、トレーニングが困難です。低ランクのテンソル積を採用しても、この問題は完全に解決できません。

まとめ

RegaVAE自体の利用はまだ難しそうです。が、これからもRAGでの課題を追っていきたいと思います。有効な情報などありましたら、ぜひ情報いただけるとうれしいです。また、記載に誤りなどありましたらご指摘お願いします。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up