RAGパイプラインを効率化する5つの新しいDataiku機能

Last updated at 2024-12-20Posted at 2024-12-20

生産性とユーザーエクスペリエンスを向上させるために会話型 AI を利用する企業が増えるにつれ、効果的な検索拡張生成 (RAG) パイプラインの構築が組織の知識を活用するために不可欠になっています。Dataiku では、お客様の声に耳を傾けており、最新の製品アップデートの多くは RAG ワークフローを効率化して、開発と保守をよりシンプルかつ高速で柔軟に行えるように設計されています。

このブログでは、構築済みの RAG コンポーネントの最新の機能強化について説明します。これらのツールは、すでに何百ものお客様が記録的な速さで本番環境対応の Q&A アプリケーションを作成するのに役立っています。よりスマートなテキストチャンクから効率的なナレッジバンクの更新、より多くのベクターストアのサポートまで、AI ビルダーにとっての新機能と今後の展望について知っておくべきすべての情報をご紹介します。

結果をもたらす事前構築済みの RAG コンポーネント

Dataiku の事前構築済みコンポーネントスイート (テキスト抽出、埋め込みツール、一般的なベクターストアとの統合、すぐに使用できるフロントエンドチャットインターフェイス) により、RAG を利用したアプリケーションの導入が驚くほど簡単になりました。
Dataiku Answers を例に挙げてみましょう。約 100 の組織がこのパッケージ化された機能を実装して、わずか数日で会話型 Q&A システムを提供し、何千人ものエンドユーザーにシームレスなチャットベースのエクスペリエンスを提供しています。しかし、初期の成功はほんの始まりにすぎません。お客様がより複雑なユースケースに取り組むにつれて、次に何が必要かを私たちに伝えてきました。私たちがどのように提供してきたかをご紹介します。「Dataiku Answers」に関する動画はこちら

1. テキストのチャンキングに対する柔軟性と制御性の向上

テキストチャンキングの柔軟性と制御の向上テキストチャンキングは、従来の RAG アプローチに不可欠です。効果的なチャンキングは、長いテキストをより小さく意味のある部分に分割して不要な「ノイズ」を減らし、LLM のコンテキストウィンドウに収まるほど簡潔でありながら、正確な検索と応答に必要な正確で関連性の高い情報を保持できるほど堅牢であることを目的としています。適切なチャンク化戦略により、重要な情報が失われず、文の途中でカットされたり、セクションヘッダーが無視されたりすることがなくなります。

新機能: チャンク化プロセスをカスタマイズするための高度なオプションを含む「チャンクに分割」プロセッサを準備レシピに追加しました。チャンクのサイズとオーバーラップを構成したり、区切りを指定したり、結果をインタラクティブに視覚化したり、埋め込み前に追加の処理手順を適用したりできます。たとえば、小さすぎて役に立たないチャンクをフィルターで除外したい場合があります。このポイントアンドクリックのノーコードプロセッサを使用すると、チームの誰でも簡単にチャンク化プロセスをユースケースのニーズに合わせて変更できます。

２.よりスマートなナレッジバンクの更新

多くの RAG ユースケースには、財務レポート、研究論文、法的文書など、長くてゆっくりと進化するドキュメントコレクションが含まれます。毎回ナレッジバンク全体を再構築するのは、コストと時間がかかります。
新機能: 追加、スマート同期、アップサートなどのインテリジェントな更新機能により、変更されたドキュメントのみを更新したり、ナレッジバンクに段階的に追加したりできるようになりました。つまり、変更されていないデータの再処理を回避し、埋め込みコストを削減して遅延を減らすことができます。

3.ベクターストアのサポートの拡張

組織は、スタックとユースケースに最適なベクターストアを柔軟に選択することを望んでおり、Dataiku は引き続きお客様の選択肢を広げることに注力しています。
新機能: FAISS、ChromaDB、Pinecone などの既存のオプションに加えて、Azure AI Search、ElasticSearch/OpenSearch、Vertex AI Vector Search のサポートを追加しました。スタックが何であれ、Dataiku が対応します。

4.親子検索によるコンテキストの改善

LLM 応答の精度と品質を向上させる方法の 1 つは、埋め込まれたテキストチャンクのみが提供するよりも多くのコンテキストをモデルに送信することです。たとえば、法的または技術的なドキュメントを考えてみましょう。多くの場合、アウトラインのような構造を持ち、コンテンツを論理セクションに整理する多くのヘッダーとサブヘッダーが含まれています。 RAG のセマンティック検索ステップでは、ユーザーのクエリに最も関連性の高い埋め込み「子」チャンクが取得されますが、それらのチャンクが属する「親」テキストを基礎となるプロンプトに追加のコンテキストとして含めることで、より良い応答が得られることがよくあります。

新機能: テキストがコンテキストとして LLM に渡される取得列を割り当てる機能を追加しました。これは、抜粋されたチャンクだけでなく、より包括的なコンテキストを送信する場合に便利です。これにより、コンテキスト制限を超えることなく、応答が正確で十分な情報に基づいたものになります。

5.共有可能なナレッジバンク

異なるチームが同じデータセットとドキュメントコレクションで作業することがよくあります。そのため、個々のプロジェクトチームが RAG アプリケーション用に冗長なナレッジバンクを構築すると、作業が重複し、リソースが無駄になります。
新機能: プロジェクト間でナレッジバンクを共有および再利用して、一貫性を確保し、ストレージとランタイムコストを削減します。この機能は、同じデータコーパスからデータを取得する複数の RAG アプリケーションを持つ企業にとって特に便利です。

今後の予定: 間もなく登場する新しいRAG機能

プロセスの改善に対するDataikuの取り組みは、これで終わりではありません。RAGツールキットに今後追加されるエキサイティングな新機能をいくつかご紹介します。

ハイブリッド検索

従来の RAG では、クエリに最も関連性の高いチャンクを取得するためにセマンティック検索アプローチを使用しますが、セマンティック検索とキーワードマッチングを組み合わせると、取得されたソース情報の品質を向上させる 1 つの方法になります。これは、LLM がトレーニング中に経験していない可能性のある専門用語を含むドメインに特に当てはまります。
今後の予定: Azure AI Search および ElasticSearch/OpenSearch ベクトルストアで利用可能なハイブリッド検索オプションでは、ベクトルの類似性とキーワードマッチングが組み合わされ、検索精度が向上します。

マルチモーダルドキュメントの埋め込みレシピ

多くのドキュメントは単なるテキストではありません。多くの場合、重要な情報が詰まった複雑な表、グラフ、画像が含まれています。ただし、RAG アプリケーションでこれらの多様な形式を処理するには、従来、複数のツール、手順、カスタムコードが必要でした。

今後の予定: Dataiku の埋め込みドキュメントレシピを使用すると、画像データにはビジョン言語モデル (VLM)、テキストには LLM を活用して、テキスト、表、画像から情報を1つの手順でシームレスに抽出して埋め込むことができます。ドキュメントに最適な処理方法を選択し、表などのデータが誤って分割されないようにし、検索に適した画像サマリーを生成します。これらはすべて、コードを1行も記述せずに実行できます。この合理化されたアプローチにより、検索精度が向上し、マルチモーダル RAG アプリケーションの構築がこれまで以上に迅速かつ容易になります。

なぜ重要なのか？

RAGパイプラインは急速に会話型アプリケーションのバックボーンになりつつあり、よりスマートで正確な応答を実現します。Dataikuの最新の機能強化により、次のことが可能になります。

RAG ベースの AI システムを迅速に構築して提供
処理コストと時間を節約
より正確でコンテキスト認識された結果を提供

RAG を初めて使用する場合でも、高度なユースケースをスケールアップする場合でも、これらのツールを使用すると、組織の知識を競争上の優位性に変えることが容易になります。今すぐこれらの機能の活用を開始し、会話型AIの活用をご検討ください！

RAGの活用例を見る

Dataiku Answersは、パッケージ化されたスケーラブルなWebアプリケーションで、高品質な会話型AIユースケースを短時間で全社に提供することができます。

→Dataiku Answeのデモはこちらから

原文: 5 New Dataiku Features to Streamline Your RAG Pipelines

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up