バイグラム系がたくさん種類があるので表にして整理しました。
バイグラム
Groongaのバイグラムは日本語向けの特殊処理が入っており、記号、アルファベット、数字はバイグラム分割せずに一語として扱う - 参考
- 記号分割 ... 記号(?, !など)もバイグラム分割するか?
- アル分割 ... アルファベットもバイグラム分割するか?
- 数字分割 ... 数字もバイグラム分割するか?
- 空白無視 ... 空白を無視するか?("あ し た"が"あした"でマッチするようになる)
名前 | 記号分割 | アル分割 | 数字分割 | 空白無視 |
---|---|---|---|---|
TokenBigram | × | × | × | × |
TokenBigramSplitSymbol | ○ | × | × | × |
TokenBigramSplitSymbolAlpha | ○ | ○ | × | × |
TokenBigramSplitSymbolAlphaDigit | ○ | ○ | ○ | × |
TokenBigramIgnoreBlank | × | × | × | ○ |
TokenBigramIgnoreBlankSplitSymbol | ○ | × | × | ○ |
TokenBigramIgnoreBlankSplitSymbolAlpha | ○ | ○ | × | ○ |
TokenBigramIgnoreBlankSplitSymbolAlphaDigit | ○ | ○ | ○ | ○ |
TokenDelimit系
タグ区切りなどに便利。
- TokenDelimit - 空白区切りで分割
- TokenDelimitNull - null文字(\0)区切りで分割
バイグラム以外のNgram
- TokenUnigram - ユニグラム(1文字区切り)
- TokenTrigram - トライグラム(3文字区切り)