Analyzer
analyzerは1つだけ
- kuromoji Analyzer
- Character Filters:
- Tokenizer: kuromoji_tokenizer
- Token Filters:
- kuromoji_baseform
- kuromoji_part_of_speech
- cjk_width
- ja_stop
- kuromoji_stemmer
- lowercase
Tokenizer
-
kuromoji_tokenizer: kuromojiで日本語をトークン化する
- 3つのモードがある
- normal: 複合語はわけない
- search: 複合語は、のこしつつ、分かち書きしたものも入れる
- extended: 複合語は分かち書きする。知らない単語に関しては、1文字づつ区切る
- 3つのモードがある
Token Filter
- kuromoji_baseform token filter: 動詞などの変化形をもとの形にする。
- kuromoji_part_of_speech token filter: 指定された品詞のものをフィルタする
- kuromoji_readingform token filter: カタカナまたはローマ字に漢字をフィルタする
- kuromoji_stemmer token filter: 指定の文字列以上ではじまるカタカナの最後のーをフィルタする。例えば、サーバーだったらサーバとなる
- ja_stop token filter: 日本語のストップワードをフィルタする。ユーザが指定もできる。
Character Filters
- kuromoji_iteration_mark: 踊り字(々などの繰り返しで使われる文字)をフィルタする。例えば人々なら人人となる。