概要

ポイント
HTMLファイルの前処理で、タグはある程度残すのも選択肢
HTML以外でも、重要箇所のマーカーとしてembeddingの際に付けるのもアリかもしれない

背景

前回の記事で、OpenAI Embedding(Ada v2)には、文書の先頭ほど重視される癖があることが分かった。

だがしかし、先頭以外に重要箇所がある場合もあるはず。それをAIに分からせる方法はないのか？という事で追加で調べてみた。検証環境などは前回参照。

クエリ文
今日、私は田中とカラオケで遊んだ。

検索対象１（１行目がクエリ文）
今日、私は田中とカラオケで遊んだ。
昨日、兄は鈴木とドライブに行った。
明日、妹は両親と遊園地で楽しむ。

検索対象２（２行目がクエリ文）
昨日、兄は鈴木とドライブに行った。
今日、私は田中とカラオケで遊んだ。
明日、妹は両親と遊園地で楽しむ。

検索対象３（３行目がクエリ文）
昨日、兄は鈴木とドライブに行った。
明日、妹は両親と遊園地で楽しむ。
今日、私は田中とカラオケで遊んだ。

検索対象３の修飾例
昨日、兄は鈴木とドライブに行った。
明日、妹は両親と遊園地で楽しむ。
<title> 今日、私は田中とカラオケで遊んだ。 </title>

文章末に検索クエリがあるため、近い距離でHitしない検索対象３を、検索クエリに近くできるほど、その修飾はOpenAI Embedding的に強調効果があったことになる。

ポイント