Databricks Vector Search | Databricks on AWS [2023/11/30時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
プレビュー
本機能はパブリックプレビューです。
本書では、DatabricksのベクトルデータベースソリューションであるDatabricks Vector Searchが何であるのかと動作原理の概要を説明します。
Databricks Vector Searchとは?
Databricks Vector Searchは、ベクトルデータベースでメタデータを含む皆様のデータのベクトル表現を格納できるサーバレスの類似検索エンジンです。Vector Searchによって、Unity Catalogで管理されるDeltaテーブルから自動で更新されるベクトル検索インデックスを作成しし、最も類似するベクトルを返却するためにシンプルなAPIでクエリーを行うことができます。
Vector Searchは以下のDatabricksの機能とインテグレーションされています:
- Deltaテーブルには、ベクトルデータベースの入力データが格納されます。Vector Searchによって、Deltaテーブルからベクトル検索インデックスを作成することができ、Deltaテーブルのコンテンツとそのインデックスが自動で同期されます。
- Unity Catalogは、データガバナンスとアクセスコントロールリストを取り扱います。Unity Catalogによって、Vector Search APIと背後のデータベース両方へのアクセスを管理することができます。
- サーバレスコンピュート。Vector Searchはサーバレスコンピュートで稼働し、これはサーバーとインフラストラクチャの管理が、あなたのDatabricksアカウント内で行われることを意味します。
- モデルサービングは、エンべディング生成のためのモデルサービングへのクエリーを自動化します。
以下のようなユースケースにVector Searchを適用することができます:
- Retrieval augment generation (RAG)システム: Vector Searchによって、データの効率的な検索と拡張が可能となります。これによって、LLMアウトプットにおいてより正確なレスポンスに繋がり、幻覚のようなエラーを最小化します。
- レコメンデーションシステム: eコマースやストリーミングプラットフォームにおいて、効率的な最近傍検索、ユーザー挙動と適切なアイテムのマッチングで活用されます。
- 画像、動画認識: 画像や動画における類似特徴量のクイックな検索を促進します。
- バイオインフォマティクス: DNAシーケンスのアライメントやプロテインの構造類似性検索のようなタスクに適用できます。
- 異常検知: 不正検知やネットワークセキュリティのような文脈で外れ値を特定します。
Vector Searchの動作原理
Vector Searchは、あなたがエンべディングベクトルをどのように計算し、Vector Searchインデックスをどのように管理したいのかによって挙動が異なります。
ハイレベルでは、Vector Searchを以下のように取り扱うことができます:
- Vector Searchエンドポイントを作成します。このエンドポイントは、Vector Searchインデックスの作成、アクセスに使用されます。REST APIあるいはCompute UIからVector Searchエンドポイントを作成することができます。それぞれのエンドポイントは、インデックスにあるベクトルの数と同時リクエスト数に応じて自動でスケールします。
- Vector Searchインデックスを作成します。このインデックスは、皆様のチャンク化されたデータを含むDeltaテーブルの特定のカラムをベースに作成されます。サポートされるインデックスのタイプの詳細については、Vector Searchインデックスをご覧ください。
- Vector Searchは入力としてデータのチャンクを取り込み、それらをエンべディングベクトルとして知られる、数のシーケンスによって表現されるN次元の空間にマッピングします。
- Vector Searchは、類似するコンセプトが異なるコンセプトよりも近くにマッピングされるように、プロパティと共にこのエンべディングベクトルを活用します。例えば、りんごとオレンジは、りんごとボートよりも互いに近く配置されます。
- Vector Searchは、類似するベクトルを特定できるように高速でスケーラブルな近傍検索アルゴリズムを提供するベクトルデータベースにこれらのベクトルを格納します。
- お使いのVector Searchエンドポイントを用いてベクトルデータベースにクエリーを実行します。
要件
- Unity Catalogが有効化されたワークスペース。
- サーバレスコンピュートの有効化。
- ソーステーブルで
Change Data Feed
が有効化されていること。
Vector Searchインデックス
Vector Searchインデックスは、リアルタイムかつ効率的な近似最近傍検索クエリーをサポートする、あなたのデータのエンべディングベクトル表現となります。
Vector Searchでは、ソースのDeltaテーブルの特定のカラムからエンべディングのインデックスが作成されます。Vector Searchインデックスは、REST APIやSDKを用いてクエリー、更新に使用できるVector Searchエンドポイントによってサービングされます。Vector Searchエンドポイントには複数のインデックスを含めることができます。
Vector Searchインデックスは、Unity Catalog内のテーブルのようなオブジェクトとして表示されます。Vectorインデックスへのアクセスや、クエリー、更新、作成のようなインデックスレベルの権限は、Unity Catalogによって制御されます。
Vector Searchは2つのインデックスタイプをサポートしています:
- Delta Sync IndexはソースのDeltaテーブルと自動で同期し、Deltaテーブルの背後のデータが変更するとインクリメントタルに更新を行います。Databricksにエンべディングベクトルを管理させるか、ご自身で管理するのかを選択することができます。
- Direct Vector Access Indexは、REST APIやSDKを通じてエンベデディングベクトルとメタデータを直接読み書きすることができます。このインデックスでは、ご自身でエンべディングベクトルとインデックスの更新を管理します。
以下のセクションでは、これらのインデックスそれぞれのシナリオを通じて、どのようにVector Searchが動作するのかをウォークスルーします。
マネージドエンベディングを用いたDelta Sync Index
エンべディングの自動生成とDatabricksマネージドのエンべディングでは、Delta Sync Indexを作成します。
このシナリオでは、
- あなたのチャンク化されたデータを格納するDeltaテーブルを指定します。
- お好きなエンべディングモデルをサービングするモデルサービングエンドポイントを指定します。OpenAIやオープンソースモデル、ご自身でトレーニングしたカスタムモデルのように、あなたの要件に適した任意のエンべディングモデルを選択することができます。
- Deltaテーブルのデータからエンべディングを生成するために、Vector Searchはこのエンべディングモデルを活用します。
- Deltaテーブルのソースデータが更新されると、ソースのDeltaテーブルで
Change Data Feed
が有効化されている限り、Vector Searchはベクトルインデックスを更新します。 - 2つのアップデートモードがサポートされています:
triggered
とcontinuous
です。continuous
モードは数秒のレーテンシーでインデックスを同期し続けます。しかし、連続的な同期ストリーミングパイプラインを実行するために計算資源がプロビジョンされるので、コストが高くなります。 - Delta Sync APIを用いて、インデックスとベクトルデータベースにクエリーを行うことができます。
セルフマネージドのエンべディングを用いたDelta Sync Index
ご自身でDelta Sync Index を作成し、エンべディングを計算することもできます。この選択肢は、すでに事前生成したエンべディングを持っており、転送学習やエンべディングの再ランキングのように外部アクセスを必要とするお客様に適用されます。
このシナリオでは、
- Deltaテーブルに格納されているエンべディングベクトルを指定します。
- Vector SearchはソースのDeltaテーブルで指定したカラムをベースにインデックスを作成します。
- Deltaテーブルのソースデータが更新されると、ソースのDeltaテーブルで
Change Data Feed
が有効化されている限り、Vector Searchはベクトルインデックスを更新します。 - 2つのアップデートモードがサポートされています:
triggered
とcontinuous
です。continuous
モードは数秒のレーテンシーでインデックスを同期し続けます。しかし、連続的な同期ストリーミングパイプラインを実行するために計算資源がプロビジョンされるので、コストが高くなります。 - Delta Sync APIを用いて、インデックスとベクトルデータベースにクエリーを行うことができます。
Direct Vector Access Index
Databricks外に既存のパイプラインがある、あるいは、すでにベクトルデータベースを使用している場合には、Direct Vector Access Indexを作成することができます。
このシナリオでは、
- Deltaテーブルに格納されているエンべディングベクトルを指定します。
- Vector SearchはソースのDeltaテーブルで指定したカラムをベースにインデックスを作成します。
- インデックスは自動でスケールし、リアルタイムのパフォーマンスを提供しますが、ソースデータのインデックスに対する更新の管理はユーザーが行います。
- Delta Sync APIを用いて、インデックスとベクトルデータベースにクエリーを行うことができます。
Vector Searchの活用
Vector SearchエンドポイントやVector SearchインデックスのようなVector Searchのコンポーネントは、UI、Python SDK、REST APIを用いて作成、管理することができます。最もシンプルに行うにはUIを用いることをお勧めします。Vector Searchインデックスの作成とクエリーをご覧ください。
以下の表では、サポートされているVector Searchインデックスの操作で利用できるAPIを列挙しています。
取り込みパイプライン | エンべディングの計算 | 説明 | |
---|---|---|---|
マネージドエンベディングを用いたDelta Sync Index | 自動 & マネージド | モデルサービング経由のマネージド | DatabricksはDeltaテーブルのデータのベクトルを生成するために、ユーザー提供のエンべディングモデルを使用します。テキストのみがサポートされています。 |
セルフマネージドのエンべディングを用いたDelta Sync Index | 自動 & マネージド | 自分で管理 | 入力としてユーザーがdoubleあるいはfload配列としてのエンべディングを持つDeltaテーブルのカラムを参照することで、エンべディングを提供します。 |
Direct Vector Access Index | 手動 & 自分で管理 | 自分で管理 | ユーザーはベクトルインデックスのインサート、削除、アップデート操作を行います。すべてのデータがサポートされます。SDKを用いてのみ、これらのインデックスタイプを作成できます。 |
制限
- PrivateLinkやIPアクセスリストを使用しているワークスペースではVector Searchはサポートされていません。
- パブリッププレビュー中はCustomer Managed Keys (CMK)はサポートされません。
- 制限のかかっているワークスペースはサポートされておらず、この機能はHIPAA準拠していません。
- 行列レベルの権限管理はサポートされていません。しかし、多くのお客様ではfilter APIを用いてご自身のアプリケーションレベルのACLを実装しています。
- この機能は以下のリージョンでのみ利用可能です:
- ap-southeast-2
- eu-west-1
- us-east-1
- us-east-2
- us-west-2