Posted at

Groongaで学ぶ全文検索2016-04-22 集計について

More than 3 years have passed since last update.

今日のテーマは集計について


全文検索での集計について

全文検索で集計ができるメリットは現時点で絞り込まれている文書の傾向がわかり、
ユーザーが次にどうすれば良いかを決めやすくなること

例えばレストランを検索する場合

下記のようにジャンルでのサマリーを出すことで
和食を食べたかったのに対象が無いのであればそこで検索をやめるなどの判断ができる。

例)


  • 中華(3件)

  • 和食(0件)

  • イタリアン(10件)

これはユーザーにとっては

1. どのキーワードがどのくらい絞りこめるかがわかる

2. どのキーワードがあるかがわかる

ため次に何をするかの判断をすることができる。

※集計ではすでに決まったキーワードでグループ化するが、
ユーザーに負担なくユーザーが絞りこめるための軸を検討する必要がある。

例)

価格比較サイト:値段

レストラン検索:ジャンル


サジェストについて

ユーザーが欲しい情報に到達できるように手助けをする
下記のようなサジェストについてもGroongaで実装されている


もしかして


  • 絞りこみすぎた場合に出す

  • typoや間違いを治す


関連キーワード


  • Googleの一番下に出ているようなもので「日本酒」で検索した際に

    日本酒に関連する検索キーワードとして

    「日本酒 ランキング」
    「日本酒 飲み方」
    などと表示されているもの

  • ページの一番下にたどり着いているという事は対象が絞り込めていないという事なので一番下に関連度が高いものを表示すると良い。

  • 関連度の高さはデータから関連度をもとめる場合と、ユーザーの入力値からもとめるパターンがあるが、
    ユーザーの入力はすべてのデータを信用できなく、
    データ量が少ない場合に偏ったサジェストになってしまう可能性があるので注意が必要


入力補完


  • 次の動きを決める時に便利

  • 必ず存在するものだけを出す事でユーザーが、がっかりしない

  • ユーザーにキーワードを提示することができる


参考)


データの性質について

学問的にはデータは下記の4種類があり

名義尺度<順序尺度<間隔尺度<比例尺度の順に情報量が多くなるが、
全文検索の場合、情報量は少なくなるが価格で検索したときよりも
価格帯で検索した方がより傾向がわかりやすくなり、ユーザーが段階的に絞り込む時の助けになる。


  1. 名義尺度(ジャンル、血液型など):順序を持たないデータ


  2. 順序尺度(順位など):順位をもったデータ


  3. 間隔尺度(価格帯):等間隔のデータ

  4. 比例尺度(価格、身長、体重):数値の比にも意味があるデータ

データの性質がわかると、どのように見せれば良いかもわかる。



データの性質について今まで考えたことがなかったので面白いなと思いました。

統計と可視化について調べるとさらに勉強なるとの事