More than 5 years have passed since last update.

Elasticsearch 基本リファレンス

Posted at 2020-01-10

Elastic Searchの用語

メモです。

index、index setting, mapping, index templateを管理するAPI。

ドキュメントをインデックスに追加する、もしくは更新する。

PUT twitter/_doc/1
{
    "user" : "kimchy",
    "post_date" : "2009-11-15T14:12:12",
    "message" : "trying out Elasticsearch"
}

インデックスが作成される時自動的に適用されるテンプレート。

インデックスされるドキュメントのフィールドがどう保存され、どうインデックスされるかを定義する。RDMのスキーマに近い概念。

Index毎の設定。
Index作成時に設定できるstatic settingと、稼働中に変更できるdynamic settingがある。

テキスト解析の仕組み。
テキスト解析はCharacter Filter, Tokenize, Token FIlterなどいくつかのステップに分けれる。

文字(1語)を意味で解釈して標準化する。
例えば、アラビア数字の(٠‎١٢٣٤٥٦٧٨‎٩‎)は(0123456789)と変換される。

文字列を語(token)に分割する。
例えば　"明日は晴れる"は["明日", "は", "晴れる"]と分割される。

Tokenizerで分割されたtoken(語)を標準化する。

例えば、City => city など、大文字は小文字の形式に変換され、同義語辞書を登録していれば同義語が一つの語に標準化される。

単語単位で実行するため、Character filterと違いTokenizerの後のプロセスとなる。