3
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

ElasticsearchでKuromojiのAnalyzer, Tokenizer, Token Filters, Char Filtersの一覧

Last updated at Posted at 2016-08-21

Analyzer

analyzerは1つだけ

  • kuromoji Analyzer
    • Character Filters:
    • Tokenizer: kuromoji_tokenizer
    • Token Filters:
      • kuromoji_baseform
      • kuromoji_part_of_speech
      • cjk_width
      • ja_stop
      • kuromoji_stemmer
      • lowercase

Tokenizer

  • kuromoji_tokenizer: kuromojiで日本語をトークン化する
    • 3つのモードがある
      • normal: 複合語はわけない
      • search: 複合語は、のこしつつ、分かち書きしたものも入れる
      • extended: 複合語は分かち書きする。知らない単語に関しては、1文字づつ区切る

Token Filter

  • kuromoji_baseform token filter: 動詞などの変化形をもとの形にする。
  • kuromoji_part_of_speech token filter: 指定された品詞のものをフィルタする
  • kuromoji_readingform token filter: カタカナまたはローマ字に漢字をフィルタする
  • kuromoji_stemmer token filter: 指定の文字列以上ではじまるカタカナの最後のーをフィルタする。例えば、サーバーだったらサーバとなる
  • ja_stop token filter: 日本語のストップワードをフィルタする。ユーザが指定もできる。

Character Filters

  • kuromoji_iteration_mark: 踊り字(々などの繰り返しで使われる文字)をフィルタする。例えば人々なら人人となる。

参考

3
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?