More than 3 years have passed since last update.

Elasticsearchの裏側調べてみた

Last updated at 2021-06-20Posted at 2021-06-20

多くのサービスで使用されている全文検索エンジンのElasticsearch、以前自分も手を動かして触ってみましたが、今回は実際にどうやって検索をしているのか+αを調べたので、まとめてみることにしました。

ESの起源

Elastic社のCEOが、妻の料理レシピの情報を検索するためのアプリケーションとして開発されたそうで、ほっこりエピソードでした。

RDBのようにSQLでクエリを書くのではなく、jsonでクエリを作成し、検索を行う。

ここを押さえとかないとドキュメントや記事を読んでも理解できない羽目に。

まず、英語と日本語で、単語の区切りに違いがあります。

そして、この単語を区切りにくい日本語に対応するために、2つの手法が存在します。

「東京都美術館」の場合、「京都」という検索クエリに対してもヒットしてしまう。
↓
ユーザーが求めていない情報＝検索ノイズ が多くなる。

辞書の性能によっては謝った箇所で分解してしまう
（例）「外国人参政権」を、「外国」「人参🥕」「政権」と分解してしまった場合、「参政権」という検索クエリにヒットしない。
固有名詞を一単語とした場合
（例）「関西国際空港」で一単語の場合、「国際空港」「空港」のような検索クエリでヒットしない

上記の問題を解決してくれるのが、日本語形態素解析エンジンの「kuromoji」

（例）「関西国際空港」からプラスして、「関西」「国際」「空港」の、辞書に基づいて分割した三単語、合計四単語でインデックスすることで、部分一致に対応。

（辞書、形態素解析の性能に依存するため、Ngramほどの部分一致には至らない）

	検索ノイズ	検索漏れ
Ngram	多い	少ない
形態素解析	少ない	多い

Ngramと形態素解析はトレードオフの関係性。
併用することで、精度を上げている。

Ngramと形態素解析によるインデックスをそれぞれ生成 。

二つのインデックスに対して同時に検索を行い、最終的に形態素解析による結果が先頭になりやすいよう重みをつけて検索結果をマージする。そうすることで、Ngramによる検索ノイズの結果を後ろに回し、ユーザーが理想とする表示結果を実現 。