[前回] Elasticsearchで見る検索エンジンの仕組み(5): スコアリング編
はじめに
前回は、全文検索のスコアリングを理解しました。
今回は、Lukeを使用し、Elasticsearchインデックスを覗いてみます。
Lukeとは
- Apache Luceneのインデックスを閲覧するツール
- Apache Lucene 8.1以降に同梱されている
Lukeをインストール
Apache Luceneをインストール
-
最新のLucene 9.2.0をダウンロード
-
lucene-9.2.0.tgz
を展開し、以下luke.cmdを実行lucene-9.2.0\bin\luke.cmd
-
インデックスのディレクトリパスを選択し、
OK
- 例:elasticsearch-8.3.1\data\indices\9bB7DSaISvShB2XHCWlloA
- Overviewタブで、フィールドを選択し、
Show Top Terms
をクリックすると、トークン出現頻度順にランク表示される
- Commitsタブで、インデックス世代別詳細情報を確認できる
- 各種物理ファイル
- ドキュメントの数
- Analysisタブで、アナライザーを試す
Char Filters
Tokenizer
Token Filters
おわりに
Lukeツールを使って、Elasticsearchインデックスを操作してみました。
次回も続きます。お楽しみに。