はじめに
Azure OpenAI Developers セミナー第2回でも語らせていただきました、Azure Cognitive Search のベクトル検索、ハイブリッド検索、セマンティックハイブリッド検索のデモネタについて紹介します。
Azure Cognitive Search がベクトル検索に対応したことで、クラシカルなキーワード検索と組み合わせたハイブリッド検索が可能になりました。今回はいつもの戦国武将データセットを例に、それぞれの機能を比較していきましょう。
ベクトル検索
text-embeddings-ada-002 で生成した Embeddings を格納します。
「源実友のお歌にはどのような特徴があったのでしょうか?」というわざとスペルミスを入れたり和歌をお歌と言い換えたりしたクエリーで検索をかけます。ja.lucene
というスタンダードな日本語アナライザーに搭載されている辞書ベースのトークナイザーによって、これらのトークンに分解されます。このトークンを用いて転置インデックスが構築されます。
次に TF/IDF ベースの BM25 スコアリングアルゴリズムによって、文章中からトークンの一致頻度を見て関連性スコアが決定されます。細かくはトークンのレア度や文章中の密度なども重みづけされます。キーワード検索では、わざとスペルミスしたので、源実朝という一つのトークンにならずに、一文字ずつのトークンになって関係ない人名の部分でヒットしてしまったりしてますね。また、「特徴」というワードをそのまま検索しており、文章中に「和歌の特徴」とあからさまに書いていない限りこのワードは意味を成しません。残念ながらこの検索方法では、「和歌の特徴を知りたい」というユーザーの意図は考慮されません。
ベクトル検索ではどうでしょうか。text-embeddings-ada-002
で生成したベクトルを検索すると、キーワードの一致にとらわれずに、テキストの類似性だけを見て検索しています。スペルミスもいい具合に無視されて検索されてますね。図の赤枠が欲しい答えです。
また、キーワード検索とベクトル検索の融合であるハイブリッド検索ではトップに来ていますね。ベクトル検索はこのようなキーワードの一致にとらわれずに意図を検索したいときに効力を発揮します。
ハイブリッド検索
「源実朝は征夷大将軍として知られているだけでなく、ある有名な趣味も持っています。それは何ですか。」という人間が自然言語でチャットに問いかけるスタイルで、そのまま検索にかけてみます。普通は検索エンジンにこんな長いクエリーで聞きませんが、これからのチャット UI 時代を見据えた使い方です。
キーワード検索では、源実朝や征夷大将軍が入っている文書が上位に来ていますね。欲しい文書は得られてません。この検索方法では、趣味を知りたいという検索者の意図は考慮されません。そもそも歴史文書に「趣味」なんて書き方しませんよね。
残念ながらベクトル検索でも、源頼朝の文書が上位に来てしまい、欲しい文書はこちらでも得られません。征夷大将軍にひっぱられすぎです。欲しいドキュメントチャンク「源実朝-0.txt」の実際の順位は、キーワード検索が 13 位、ベクトル検索が 9 位でした。上位 3 件を ChatGPT に渡す作りをしていた場合、回答できませんね。
では、これをハイブリッド検索すると… あら不思議、欲しい文書「源実朝-0.txt」が 2 位に浮上してきました。ふむ… なぜなんだ🤔と
Reciprocal Rank Fusion(RRF)
このハイブリッド検索ではどのように検索スコアを計算しているかといいますと、まずキーワード検索のスコアには Okapi BM25 アルゴリズムによるスコアが、ベクトル検索ではコサイン類似度をスコアとして用いており、両者異なるスコアです。これを融合するシンプルな計算式として、Reciprocal Rank Fusion(RRF) が採用されています。
RRF は両者の文書ランクの逆数の和を取ります。つまり、その文書の順位だけを見て、どちらのランキングでも上位にきていればスコアが高くなる仕組みです。
なので欲しかった「源実朝-0.txt」のドキュメントは両方で上位だったので、ここで浮上したということですね。k は定数ですが、私の計算では k=59 でスコアが一致します。
セマンティックハイブリッド検索
これで終わりではありません。Azure Cognitive Search の最終兵器と言っても過言ではない、セマンティックハイブリッド検索について紹介します。
「13人の合議制に含まれるメンバー一覧」という、検索クエリーだけでは答えを探しにくいクエリーで検索をかけます。わざと数字を全角で記述しているためキーワード検索では数字は壊滅的ですが、合議制がヒットしてるのでまぁまぁですね。ただしメンバー一覧が欲しいという意図は一切考慮されておりません。
ベクトル検索でも一覧は得られませんでした。ただし 1 位に源頼家の十三人の合議制に言及するチャンクが得られており、まぁまぁの結果です。3 位の源実朝の一覧は間違いです。これは源実朝が右大臣になった際の拝賀式の参列者一覧です。
ではセマンティックハイブリッド検索はというと、セマンティック検索機能に搭載されている Microsoft 製のLLMである Turing モデルが文章中から抽出的要約タスクを実行し、この意図の答えとなるチャンクの断片をピンポイントで返してくれる「セマンティックアンサー」が生成されました。
さらにキーワード検索でもベクトル検索でも得られなかった合議制の構成メンバーの羅列を含む断片を抽出するだけでなく、ハイライトもしてくれてますよね。これをセマンティックハイライトといいます。まさにこのセマンティックハイライトでマークアップされている部分が欲しかった回答に近いです。
セマンティックアンサーは検索ランキングとは別に、精度が十分に高い水準に達した場合のみ返却されます。ピンポイントでアンサーが見つからなかった場合でも、チャンクの中から抽出的要約を用いて、セマンティックキャプション(青枠)を生成してくれます。こちらもチャンクの中から、意図に近いセクションを抽出してくれていることが分かります。
そしてランカースコアについては、ハイブリッド検索の結果上位 50 件を、セマンティックランカーという機能がリランク(並び替え)て新たにスコアを生成しています。この機能は非常にコストの高い処理をしているので、検索には時間がかかる点にはご注意いただきたいと思います。実装としては、通常検索で回答が得られなかったときに、2 段階目で実行するなどの、インタラクションを UI に入れるなどすると自然かもしれません。
検索クエリーについて
おわりに
お持ちのデータやユーザークエリーの特性に応じて、利用する検索アルゴリズムを検証いただいて組み合わせていただければと思います。