はじめに
Mroonga/Groongaでは、トークナイザにより文章が分割されて、分割されたトークン(語句)で転置インデックスが作成されます。
Mroonga/Groongaでは、様々な環境に柔軟に対応できるよう、多数のトークナイザが用意されています。
Ngramトークナイザは、文章の意味合いを考慮せず文字列的に漏れの少ない検索を行うことができます。
Mecabトークナイザは、文章の意味合いを考慮して意味的なノイズの少ない検索を行うことができます。
トークナイザの種別に応じて、分割ルールが異なり、転置インデックスの語句のサイズや、種別数および出現回数が異なってきます。
Ngramトークナイザでは、Nのサイズが大きくなればなるほど、転置インデックスの語句のユニーク性が増し、転置インデックスの語句の種別が増え、語句ごとの出現回数が減ります。
そこで、NgramのNのサイズを1~5まで変化させてみて、転置インデックスの語句の種別数、出現回数、および全文検索の性能がどのように変化するかを実験してみます。