LoginSignup
3
3

More than 5 years have passed since last update.

Mroonga/GroongaのMeCabトークナイザの全文検索性能について

Last updated at Posted at 2013-12-22

はじめに

Mroonga/Groongaでは、トークナイザにより文章が分割されて、分割されたトークン(語句)で転置インデックスが作成されます。

Mroonga/Groongaでは、様々な環境に柔軟に対応できるよう、多数のトークナイザが用意されています。

トークナイザの種別に応じて、分割ルールが異なり、転置インデックスの語句のサイズや、種別数および出現回数が異なります。

Ngramのサイズに応じたMroonga/Groongaの全文検索性能についてでは、NgramのNのサイズが大きいほど、良好な検索性能が得られることが判りました。特にTokenUnigramでは、顕著に検索性能が劣化しました。

MeCabトークナイザでは、形態素解析用辞書に応じて、様々なサイズで文章が分かち書きされます。たとえば、「今日は雨です。」という文章は、「今日/は/雨/です/。」と、分かち書きされます。「は」等の助詞は、文章中の出現頻度が極めて高く、データベース規模が大きくなるにつれて、語句の出現回数が爆発的に増えます。

このような助詞等の頻出語句は、(たいして)検索に寄与をしないにも関わらず、検索性能に大きな影響を与えます。

そこで、このような頻出語句を除去させた場合のMeCabトークナイザの全文検索性能と、頻出語句を除去させない場合のMeCabトークナイザの全文検索性能およびNgramトークナイザの全文検索性能を比較してみます。

続きを読む

mecab_pe.png

3
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
3