バイグラム系がたくさん種類があるので表にして整理しました。
バイグラム
Groongaのバイグラムは日本語向けの特殊処理が入っており、記号、アルファベット、数字はバイグラム分割せずに一語として扱う - 参考
- 記号分割 ... 記号(?, !など)もバイグラム分割するか?
- アル分割 ... アルファベットもバイグラム分割するか?
- 数字分割 ... 数字もバイグラム分割するか?
- 空白無視 ... 空白を無視するか?("あ し た"が"あした"でマッチするようになる)
| 名前 | 記号分割 | アル分割 | 数字分割 | 空白無視 |
|---------------------------------------------+----------+----------+----------+----------|
| TokenBigram | × | × | × | × |
| TokenBigramSplitSymbol | ○ | × | × | × |
| TokenBigramSplitSymbolAlpha | ○ | ○ | × | × |
| TokenBigramSplitSymbolAlphaDigit | ○ | ○ | ○ | × |
| TokenBigramIgnoreBlank | × | × | × | ○ |
| TokenBigramIgnoreBlankSplitSymbol | ○ | × | × | ○ |
| TokenBigramIgnoreBlankSplitSymbolAlpha | ○ | ○ | × | ○ |
| TokenBigramIgnoreBlankSplitSymbolAlphaDigit | ○ | ○ | ○ | ○ |
TokenDelimit系
タグ区切りなどに便利。
- TokenDelimit - 空白区切りで分割
- TokenDelimitNull - null文字(\0)区切りで分割
バイグラム以外のNgram
- TokenUnigram - ユニグラム(1文字区切り)
- TokenTrigram - トライグラム(3文字区切り)