【生成AIアプリのためのベクトル検索】① プロローグ

Last updated at Posted at 2023-09-08


背景 〜 ベクトルデータベースとしてのApache CassandraとDataStax Astra DB

2022年からの生成AIの隆盛に対して、Apache Cassandraに対して、DataStaxエンジニアによりベクトル検索機能の拡張提案が提案され、DataStax社のCassandraマネージドサービスであるAstra DBで利用可能になっています。




生成AIアプリのためのベクトル検索 ①


このドキュメントは、「AI アプリケーション開発にベクトル検索を活用するための開発者/アーキテクト向けガイド」です。

このドキュメントは、生成 AI アプリケーションを設計・構築しようとしている全ての方のためのガイドです。組織が理解すべき重要な概念と考慮事項を取り扱うだけでなく、ベクトル検索を用いて、LLM の持つ機能を大幅に拡張するためのシンプルで強力なアプローチについても解説します。

承前: 生成AIの勃興

生成 AIの登場は、プロダクトを利用する方法だけでなく、プロダクトを構築する方法にも変化を与えています。OpenAIが2022年11月30日に ChatGPTを発表して以来わずか数ヶ月の間に生成 AIへの関心が世界を席巻しました。この記事を書いている時点で、マッキンゼーは、今や生成 AI の価値は世界経済全体で2兆4,000億ドルから4兆2,000億ドル規模になる可能性があると推定しています(1)。

この革命の中心には、大規模言語モデル (LLM: Large Language Model) によって可能になったイノベーションがあります。こうした最近の傾向を示すものとして、以下のようなものがあります。

  • マイクロソフトのOpenAIへの投資(下記、参考文献2を参照、以下同)
  • Microsoft Azure OpenAI Serviceの立ち上げ(3)
  • グーグルのAnthropicとの提携(4)
  • PaLM 2(5)
  • Bard(6)
  • Huggingface(7) のような数十のモデルを持つ盛んなオープンソースコミュニティ
  • Amazon Sagemaker(8) やグーグルのVertex AIとGenerative AI App Builder(9) のような生成AIアプリを構築するためのツールとサービスの登場

開発者はすでに新しい言語モデルスタックについて議論しています(10)。 LangChain(11)やLlamaIndex(12) のような著名な新しいフレームワークが登場し、ベクトル検索が、生成 AIアプリケーション構築における技術スタックのもう 1 つの重要なコンポーネントとして浮上しました。


  • ChatGPTは、3か月も経ずに月間アクティブ ユーザー数1億人を史上最速で達成しました(13)
  • OpenAIプラグインは、その発表以来、21の異なるカテゴリにわたる400を超える規模のエコシステムに瞬く間に成長しました(14)
  • 開発者の92%が生成 AI ツールを使用しています(15)
  • ベンチャーキャピタルの支援を受けている企業の90%が生成AI製品の発売を計画しています(16)
  • 経営幹部の65%が、生成AIは組織に対して非常に大きな影響力を持つと考えています(17)
  • SEMRush社は、ChatGPTを2023年の最も利用されたGoogle検索語の第26位にランクしました(18)



  • 生成 AI が重要な理由
  • 生成 AI を効果的に機能させるためのアーキテクチャとデザインパターン
  • ベクトル検索が生成AIアーキテクチャの重要なコンポーネントとなった経緯


