LoginSignup
15
14

More than 5 years have passed since last update.

Groongaのトークナイザーについて表にまとめてみた

Last updated at Posted at 2014-12-05

バイグラム系がたくさん種類があるので表にして整理しました。

バイグラム

Groongaのバイグラムは日本語向けの特殊処理が入っており、記号、アルファベット、数字はバイグラム分割せずに一語として扱う - 参考

  • 記号分割 ... 記号(?, !など)もバイグラム分割するか?
  • アル分割 ... アルファベットもバイグラム分割するか?
  • 数字分割 ... 数字もバイグラム分割するか?
  • 空白無視 ... 空白を無視するか?("あ し た"が"あした"でマッチするようになる)
名前 記号分割 アル分割 数字分割 空白無視
TokenBigram × × × ×
TokenBigramSplitSymbol × × ×
TokenBigramSplitSymbolAlpha × ×
TokenBigramSplitSymbolAlphaDigit ×
TokenBigramIgnoreBlank × × ×
TokenBigramIgnoreBlankSplitSymbol × ×
TokenBigramIgnoreBlankSplitSymbolAlpha ×
TokenBigramIgnoreBlankSplitSymbolAlphaDigit

TokenDelimit系

タグ区切りなどに便利。

  • TokenDelimit - 空白区切りで分割
  • TokenDelimitNull - null文字(\0)区切りで分割

バイグラム以外のNgram

  • TokenUnigram - ユニグラム(1文字区切り)
  • TokenTrigram - トライグラム(3文字区切り)

参考

15
14
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
15
14