2

More than 5 years have passed since last update.

ElasticsearchでKuromojiのAnalyzer, Tokenizer, Token Filters, Char Filtersの一覧

Elasticsearch

Last updated at 2016-08-23Posted at 2016-08-21

Analyzer

analyzerは１つだけ

kuromoji Analyzer
- Character Filters:
- Tokenizer: kuromoji_tokenizer
- Token Filters:
  - kuromoji_baseform
  - kuromoji_part_of_speech
  - cjk_width
  - ja_stop
  - kuromoji_stemmer
  - lowercase

Tokenizer

kuromoji_tokenizer: kuromojiで日本語をトークン化する
- 3つのモードがある
  - normal: 複合語はわけない
  - search: 複合語は、のこしつつ、分かち書きしたものも入れる
  - extended: 複合語は分かち書きする。知らない単語に関しては、１文字づつ区切る

Token Filter

kuromoji_baseform token filter: 動詞などの変化形をもとの形にする。
kuromoji_part_of_speech token filter: 指定された品詞のものをフィルタする
kuromoji_readingform token filter: カタカナまたはローマ字に漢字をフィルタする
kuromoji_stemmer token filter: 指定の文字列以上ではじまるカタカナの最後のーをフィルタする。例えば、サーバーだったらサーバとなる
ja_stop token filter: 日本語のストップワードをフィルタする。ユーザが指定もできる。

Character Filters

kuromoji_iteration_mark: 踊り字（々などの繰り返しで使われる文字)をフィルタする。例えば人々なら人人となる。

参考

https://www.elastic.co/guide/en/elasticsearch/plugins/2.3/analysis-kuromoji.html

2

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

2