More than 5 years have passed since last update.

Groongaで学ぶ全文検索 2015-11-20

Posted at 2015-11-21

日本語の検索

全文検索は下記のようにキーワードにマッチした文書を出力として返す仕組み
マッチした文書を探す際に単純に頭から検索していると時間がかかるためインデックスを作成して
インデックスから対象の文書を検索する。

入力（キーワードなど）→全文検索→出力(マッチした文書)

インデックスは下記のようにキーと値を持っていて、キーに入っているものだけが検索可能

キー	値
Groonga	[文書A,文書C]
Mroonga	[文書A,文書B]

英語は空白で区切られているのでキーの決め方が簡単だが

日本語の場合下記の例のように区切りが曖昧なのでキーの決め方が難しい。
例)
「東京都」を検索したい場合に
東京都、東京どちらも使う可能性がある。

意味のある単語に区切りキーに登録する
例)
花が咲いた
「花」
「が」
「咲いた」
日本語は区切りが曖昧なので難しい
例)
ここではきものをぬいでを区切る場合
ここで/はきものを/ぬいで
ここでは/きものを/ぬいで
検索の際に手数が少なくすむ
代表的なソフトウェアにMeCabがあり文書を解析する際に文書が長くなるとリソースが足りなくてエラーになる。
Groongaでは長くなり過ぎたら切ってMeCabに渡すオプションがある。

※実際にはサイズを抑えるために格納方法を工夫している