生産性とユーザー エクスペリエンスを向上させるために会話型 AI を利用する企業が増えるにつれ、効果的な検索拡張生成 (RAG) パイプラインの構築が組織の知識を活用するために不可欠になっています。Dataiku では、お客様の声に耳を傾けており、最新の製品アップデートの多くは RAG ワークフローを効率化して、開発と保守をよりシンプルかつ高速で柔軟に行えるように設計されています。
このブログでは、構築済みの RAG コンポーネントの最新の機能強化について説明します。これらのツールは、すでに何百ものお客様が記録的な速さで本番環境対応の Q&A アプリケーションを作成するのに役立っています。よりスマートなテキスト チャンクから効率的なナレッジ バンクの更新、より多くのベクター ストアのサポートまで、AI ビルダーにとっての新機能と今後の展望について知っておくべきすべての情報をご紹介します。
結果をもたらす事前構築済みの RAG コンポーネント
Dataiku の事前構築済みコンポーネント スイート (テキスト抽出、埋め込みツール、一般的なベクター ストアとの統合、すぐに使用できるフロントエンド チャット インターフェイス) により、RAG を利用したアプリケーションの導入が驚くほど簡単になりました。
Dataiku Answers を例に挙げてみましょう。約 100 の組織がこのパッケージ化された機能を実装して、わずか数日で会話型 Q&A システムを提供し、何千人ものエンド ユーザーにシームレスなチャット ベースのエクスペリエンスを提供しています。しかし、初期の成功はほんの始まりにすぎません。お客様がより複雑なユース ケースに取り組むにつれて、次に何が必要かを私たちに伝えてきました。私たちがどのように提供してきたかをご紹介します。「Dataiku Answers」に関する動画はこちら
1. テキストのチャンキングに対する柔軟性と制御性の向上
テキスト チャンキングの柔軟性と制御の向上 テキスト チャンキングは、従来の RAG アプローチに不可欠です。効果的なチャンキングは、長いテキストをより小さく意味のある部分に分割して不要な「ノイズ」を減らし、LLM のコンテキスト ウィンドウに収まるほど簡潔でありながら、正確な検索と応答に必要な正確で関連性の高い情報を保持できるほど堅牢であることを目的としています。適切なチャンク化戦略により、重要な情報が失われず、文の途中でカットされたり、セクション ヘッダーが無視されたりすることがなくなります。
新機能: チャンク化プロセスをカスタマイズするための高度なオプションを含む「チャンクに分割」プロセッサを準備レシピに追加しました。チャンクのサイズとオーバーラップを構成したり、区切りを指定したり、結果をインタラクティブに視覚化したり、埋め込み前に追加の処理手順を適用したりできます。たとえば、小さすぎて役に立たないチャンクをフィルターで除外したい場合があります。このポイント アンド クリックのノーコード プロセッサを使用すると、チームの誰でも簡単にチャンク化プロセスをユース ケースのニーズに合わせて変更できます。
2.よりスマートなナレッジ バンクの更新
多くの RAG ユース ケースには、財務レポート、研究論文、法的文書など、長くてゆっくりと進化するドキュメント コレクションが含まれます。毎回ナレッジ バンク全体を再構築するのは、コストと時間がかかります。
新機能: 追加、スマート同期、アップサートなどのインテリジェントな更新機能により、変更されたドキュメントのみを更新したり、ナレッジバンクに段階的に追加したりできるようになりました。つまり、変更されていないデータの再処理を回避し、埋め込みコストを削減して遅延を減らすことができます。
3.ベクター ストアのサポートの拡張
組織は、スタックとユース ケースに最適なベクター ストアを柔軟に選択することを望んでおり、Dataiku は引き続きお客様の選択肢を広げることに注力しています。
新機能: FAISS、ChromaDB、Pinecone などの既存のオプションに加えて、Azure AI Search、ElasticSearch/OpenSearch、Vertex AI Vector Search のサポートを追加しました。スタックが何であれ、Dataiku が対応します。
4.親子検索によるコンテキストの改善
LLM 応答の精度と品質を向上させる方法の 1 つは、埋め込まれたテキスト チャンクのみが提供するよりも多くのコンテキストをモデルに送信することです。たとえば、法的または技術的なドキュメントを考えてみましょう。多くの場合、アウトラインのような構造を持ち、コンテンツを論理セクションに整理する多くのヘッダーとサブヘッダーが含まれています。 RAG のセマンティック検索ステップでは、ユーザーのクエリに最も関連性の高い埋め込み「子」チャンクが取得されますが、それらのチャンクが属する「親」テキストを基礎となるプロンプトに追加のコンテキストとして含めることで、より良い応答が得られることがよくあります。
新機能: テキストがコンテキストとして LLM に渡される取得列を割り当てる機能を追加しました。これは、抜粋されたチャンクだけでなく、より包括的なコンテキストを送信する場合に便利です。これにより、コンテキスト制限を超えることなく、応答が正確で十分な情報に基づいたものになります。
5.共有可能なナレッジ バンク
異なるチームが同じデータセットとドキュメント コレクションで作業することがよくあります。そのため、個々のプロジェクト チームが RAG アプリケーション用に冗長なナレッジ バンクを構築すると、作業が重複し、リソースが無駄になります。
新機能: プロジェクト間でナレッジ バンクを共有および再利用して、一貫性を確保し、ストレージとランタイム コストを削減します。この機能は、同じデータ コーパスからデータを取得する複数の RAG アプリケーションを持つ企業にとって特に便利です。
今後の予定: 間もなく登場する新しいRAG機能
プロセスの改善に対するDataikuの取り組みは、これで終わりではありません。RAGツールキットに今後追加されるエキサイティングな新機能をいくつかご紹介します。
ハイブリッド検索
従来の RAG では、クエリに最も関連性の高いチャンクを取得するためにセマンティック検索アプローチを使用しますが、セマンティック検索とキーワード マッチングを組み合わせると、取得されたソース情報の品質を向上させる 1 つの方法になります。これは、LLM がトレーニング中に経験していない可能性のある専門用語を含むドメインに特に当てはまります。
今後の予定: Azure AI Search および ElasticSearch/OpenSearch ベクトル ストアで利用可能なハイブリッド検索オプションでは、ベクトルの類似性とキーワード マッチングが組み合わされ、検索精度が向上します。
マルチモーダル ドキュメントの埋め込みレシピ
多くのドキュメントは単なるテキストではありません。多くの場合、重要な情報が詰まった複雑な表、グラフ、画像が含まれています。ただし、RAG アプリケーションでこれらの多様な形式を処理するには、従来、複数のツール、手順、カスタム コードが必要でした。
今後の予定: Dataiku の埋め込みドキュメントレシピを使用すると、画像データにはビジョン言語モデル (VLM)、テキストには LLM を活用して、テキスト、表、画像から情報を1つの手順でシームレスに抽出して埋め込むことができます。ドキュメントに最適な処理方法を選択し、表などのデータが誤って分割されないようにし、検索に適した画像サマリーを生成します。これらはすべて、コードを1行も記述せずに実行できます。この合理化されたアプローチにより、検索精度が向上し、マルチモーダル RAG アプリケーションの構築がこれまで以上に迅速かつ容易になります。
なぜ重要なのか?
RAGパイプラインは急速に会話型アプリケーションのバックボーンになりつつあり、よりスマートで正確な応答を実現します。Dataikuの最新の機能強化により、次のことが可能になります。
- RAG ベースの AI システムを迅速に構築して提供
- 処理コストと時間を節約
- より正確でコンテキスト認識された結果を提供
RAG を初めて使用する場合でも、高度なユースケースをスケールアップする場合でも、これらのツールを使用すると、組織の知識を競争上の優位性に変えることが容易になります。今すぐこれらの機能の活用を開始し、会話型AIの活用をご検討ください!
RAGの活用例を見る
Dataiku Answersは、パッケージ化されたスケーラブルなWebアプリケーションで、高品質な会話型AIユースケースを短時間で全社に提供することができます。
→Dataiku Answeのデモはこちらから