はじめに
本資料では、2024年1月にElasticsearchユーザへ向けて開催された『Elasticsearch 生成AI Conference 2024』の講演内容をまとめ、考察を加えています。
生成AIの登場に大きく影響を受けている情報検索業界で、Elasticsearch社が新たに提供している機能・サービスに関して、情報収集の一助となれば幸いです。
目次 |
---|
1.イベント概要 |
2.Elasticsearchとは |
3.生成系AIによるビジネスチャンスとリスク |
4.Elasticsearchへの生成AI導入 |
5.Elasticsearch生成AIデモ |
6.利用可能性の考察 |
1.イベント概要
- イベント名:『Elasticsearch 生成AI Conference 2024』
- 日時:2024/1/17
- 主催:Elasticsearch株式会社
- 場所:千代田区丸の内1-7-12 サピアタワー
- 講演内容
- 開会の挨拶
- 生成AIによるビジネスチャンスとElasticsearchの世界
- Elasticsearch生成AIデモ
- 生成AIを活用するためのコンサルティングサービス
- 懇親会
本資料では講演内容のうち、
- 2.生成AIによるビジネスチャンスとElasticsearchの世界
- 3.Elasticsearch生成AIデモ
の内容を扱います。
2.Elasticsearchとは
- 「世界一の検索エンジン」by DB-Engines Ranking of Search Engines
世界的に高い評価を獲得し、当社においても導入実績のある分散型検索エンジンであり、その強みは以下とされている。
- 高速性:地理空間検索・ベクトル検索などを織り交ぜたハイブリッド検索による高速検索が可能。
- 高可用性:クラスタリングとノードの自動復旧により、検索基盤の高可用性を実現。
- 導入容易性:クラウド・オンプレの双方に広く対応し、多様な環境にて利用可能。
3つの活用領域
上記の強みを通し、以下の活用方法が提示されている。
- DB検索
高速性・高可用性を生かした大規模なDBの管理・分析が可能。 - ログ監視
大量のログに対し高速検索を行い、インサイト抽出も可能。 - セキュリティ確保
通信・保存データの暗号化に対応しており、基盤上のセキュリティ確保も容易。
3.生成AIによるビジネスチャンスとリスク
生成AIの登場は情報検索の世界にも大きな影響を与えている。そこから生じるチャンス・リスクに関して、Elasticsearch社の見解を伺うことができた。
ビジネスチャンス
生成AIにより生じる、検索エンジン業界でのビジネスチャンスは以下にまとめられる。
- 検索効率の上昇
大規模モデルを検索に用いることによる、検索効率の上昇が見込まれる。 - UXの向上
文書生成による自由度の高いインプット/アウトプットにより、ユーザ体験の向上が見込まれる。 - 競合との差別化
自由な形式の入出力が可能となるため、検索エンジンごとの使用感に多様性が生じる。そのため、DB検索サービスに対する新たなニーズ・差別点が生じる。
ビジネス上のリスク
一方で、情報検索業界に生じる重大なリスクも懸念されている。
情報検索というメソッド自体の限界
生成AIは自由なインプットに対し、自由なアウトプットを提供できる。
そのため、「クエリによる情報検索」というメソッドの優位性が脅かされている。
4.Elasticsearchへの生成AI導入
生成モデルをシステム利用する際、以下の懸念点が存在する。
- ハルシネーションなど、生成AIから誤答が出力される可能性
モデルが正しい出力をするよう、社内利用においては内部データによるグラウンディングが必要となる。 - セキュリティ・プライバシー上のリスク
生成された出力が内部情報を漏洩させる恐れがあり、生成モデルに渡す入力/許す出力のセキュリティ管理を適切に行う必要がある。
上記の懸念点を踏まえ、次の機能が既にErasticsearchのEnterprise版で提供されている。
- ハイブリッド検索
言語モデルによるベクトル表現を用いた検索や、出力候補のスコアリングが可能。 - 言語モデルの自由な選択
独自に学習したモデルや、サードパーティ製のモデルを検索機能に用いることができる。
(例) ELSER(Elastic Learned Sparse EncodeR):同社が独自に学習した検索モデル ※現在は英語のみ対応 - セキュリティ管理
検索エンジン・生成AIが参照するドキュメントのセキュリティレベル管理ツールが利用できる。
5.Elasticsearch生成AIデモ
講演の後半部にて、Elasticsearch Relevance Engine(ESRE)のデモシステムが実演された。カンファレンス時点でのシステム概要について、明かされた部分を以下に記す。
- Retrieval Augmented Generation(RAG)の一種
ESREではElasticsearchの検索結果を生成モデルに渡すことで、質問への応答を文書として生成している。Elasticsearch上で内部ドキュメントを管理しておけば、生成AIは社内ナレッジを加味した出力が可能であり、独自に学習を回すことなく生成モデルのグラウンディングが実現される。
デモに対する考察
独自の強み:『生成モデルに検索結果のみが渡されている』
Elasticsearchデータベースでヒットした上位の検索結果のみが生成モデルに渡されるため、学習を実行する計算機資源を持つ必要がない。また、Elasticsearchの強みである検索精度から、特に有効なナレッジが生成モデルに渡されることも期待できる。
キーワード検索
Elasicsearchデータベース上で行うハイブリッド検索は、従来の検索エンジンと同様のキーワード検索を含んでいる。そのため、ESRE自体は文書を入力として受け付けているが、その意味情報が検索に利用されないことが懸念される。
そのデメリットを解消する上で、ベクトル検索の結果も併用することが考えられるが、デモ時点ではベクトル検索のみが実装されており、ハイブリッド検索自体の有効性は検証結果が示されなかった。
出力を文書として生成する意義
クエリによる検索結果が文書として生成されているが、そのメリットはいまだ不明瞭。検索結果をそのまま表示する以上の使用性が提供されるのか疑問が残った。
6.利用可能性の考察
Elasticsearch社によるESREデモの実演から、有効な活用方法について考察しました。
活用事例『システムの異常通知ログを入力し、その対応方法を出力させる』
- ドキュメント管理
Elasticsearch上でシステムログを管理し、その対応方法を記したドキュメントを紐づけておく。 - 異常通知ログの検索
ESREに対し、異常通知ログの文面をそのまま入力し、検索を実行する。 - システム異常に関するナレッジを生成モデルへ入力
Elasticsearchによる検索結果には異常に対する対応方法のナレッジも含まれ、その情報が生成モデルに渡される。 - 異常対応のナレッジを出力
生じたシステム異常の説明・対応方法を伴った文書がESREより出力される。
上記の活用方法の有効性
- システムログは定型文となっているため、ESREがデータベース検索を行う際、正しいナレッジにアクセスしやすい。
- システムログは定型文となっているため、テキストデータを整形する必要がない。
- システムログをElasticsearch上で管理運用していれば、新たにモデルの学習を行う必要がない。
- システム異常の対応ナレッジはElasticsearch上に一括管理することで、資料の散逸を防ぐことができる。
上記のケースをはじめとする、入力が一意に決まるユースケースは相性が良いと思われる。現状のデモにおける最大の課題は、生成モデルに渡すナレッジをどうセキュリティ管理するか、という点にある。