0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

How to search specific keyword with assgined weights to each column

Posted at

注記:翻訳版を提供するための作業エントリ

もっとgroongaを知ってもらおう!ということで週刊groongaをはじめました。毎週木曜にgroongaやmroongaのトピックを投稿予定です。

はじめに

2013年1月29日にオープンソースのカラムストア機能付き全文検索エンジンgroonga 2.1.2をリリースしました。

そこで2.1.2で新規に追加された複数のquery()関数のサポートを使って、キーワードごとに重み付けをして検索する方法を紹介します。

サンプルスキーマとデータ

例で使うテーブルのスキーマは以下の通りです。

table_create Users TABLE_NO_KEY
column_create Users name COLUMN_SCALAR ShortText
column_create Users memo COLUMN_SCALAR ShortText

table_create Lexicon TABLE_HASH_KEY ShortText
--default_tokenizer TokenBigramSplitSymbolAlphaDigit
--normalizer NormalizerAuto
column_create Lexicon users_name COLUMN_INDEX|WITH_POSITION Users name
column_create Lexicon users_memo COLUMN_INDEX|WITH_POSITION Users memo

例で使うテーブルのデータは以下の通りです。
Usersテーブルのnameカラムとmemoカラムにデータを登録します。

load --table Users
[
{"name": "Alice", "memo": "groonga user"},
{"name": "Alisa", "memo": "mroonga user"},
{"name": "Bob", "memo": "rroonga user"},
{"name": "Tom", "memo": "nroonga user"},
{"name": "Tobby", "memo": "groonga and mroonga user. mroonga is ..."},
]

まずは、Usersテーブルのnameカラムからキーワード"alice"を全文検索するクエリの例を示します。(nameカラムで合致したデータに対する重みづけとして10をこのサンプルでは指定します)

query()関数を使ったクエリは以下のように書くことができます。

select Users
--output_columns name,_score
--filter 'query("name * 10", "alice")'

Usersテーブルからnameカラムに10の重み付け"name * 10"を行い、キーワード"alice"を全文検索します。
結果としてマッチしたnameカラムの値と、マッチした場合のスコア(_score)を表示します。
条件にマッチするほど_scoreの値は大きくなります。

ではいくつかキーワードが与えられていて、そのキーワードに異なる重みづけをして全文検索を行いたいときにはどうなるでしょうか。

query()関数を使って、以下のようにキーワードごとに重み付けをしてmemoカラムを検索してみます。
groongaもしくはmroongaを使っているuserで、mroongaを最も重視する、という例です。

全文検索対象のキーワード キーワードに対する重み付けの値
groonga 10
mroonga 20
user 1

実際のクエリは以下のように書くことができます。

select Users
--output_columns name,memo,_score
--filter 'query("memo * 10", "groonga") || query("memo * 20", "mroonga") || query("memo * 1", "user")'
--sortby -_score

クエリの結果では重みづけを行っているのでmroongaがより上位に来ていることがわかります。

[
["name","ShortText"],["memo","ShortText"],["_score","Int32"]
],
["Tobby","groonga and mroonga user. mroonga is ...",51],
["Alisa","mroonga user",21],
["Alice","groonga user",11],
["Tom","nroonga user",1],
["Bob","rroonga user",1]

このようにquery()関数を使うことで、キーワードの重要度に応じて検索結果を得られるようになりました。

まとめ

groonga 2.1.2で追加されたquery()関数を使って、キーワードごとに重み付けを行って検索する例を紹介しました。

groongaに興味を持ったなら、まずはインストールして試してみてください。

チュートリアルも用意しています。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?