Elastic Searchの用語
メモです。
Indices API
index、index setting, mapping, index templateを管理するAPI。
Index API
ドキュメントをインデックスに追加する、もしくは更新する。
PUT twitter/_doc/1
{
"user" : "kimchy",
"post_date" : "2009-11-15T14:12:12",
"message" : "trying out Elasticsearch"
}
Index Template
インデックスが作成される時自動的に適用されるテンプレート。
Mapping
Mapping
インデックスされるドキュメントのフィールドがどう保存され、どうインデックスされるかを定義する。RDMのスキーマに近い概念。
Index Module
Index Settings
Index毎の設定。
Index作成時に設定できるstatic settingと、稼働中に変更できるdynamic settingがある。
Analyzer
テキスト解析の仕組み。
テキスト解析はCharacter Filter, Tokenize, Token FIlterなどいくつかのステップに分けれる。
Character filters
文字(1語)を意味で解釈して標準化する。
例えば、アラビア数字の(٠١٢٣٤٥٦٧٨٩)は(0123456789)と変換される。
Tokenizer
文字列を語(token)に分割する。
例えば "明日は晴れる"は["明日", "は", "晴れる"]と分割される。
Token filters
Tokenizerで分割されたtoken(語)を標準化する。
例えば、City => city など、大文字は小文字の形式に変換され、同義語辞書を登録していれば同義語が一つの語に標準化される。
単語単位で実行するため、Character filterと違いTokenizerの後のプロセスとなる。