Edited at

全文検索における精度を高めるために

More than 3 years have passed since last update.


そもそも精度とは検索ユーザーの満足度を示す度合い

要素としては

1. 検索結果が網羅されているかどうか→再現率

2. 想定した内容が返ってるかどうか→適合率

一般的に再現率を高めると、検索内容に該当しない結果も

含まれるため、再現率と適合率はトレードオフの関係だが、

検索エンジンでは再現率を高めつつ、適合率の高い結果

を優先的に上位に表示させることで満足度を高めている。


正しくランクをつけるための主要アルゴリズム


  1. TF

    検索ワードがより多く出現している文書に対して、

    高いスコアを付与


  2. TF-IDF

    全体の文書に含まれるワードが少ないワード(珍しいワード)を選定し、

    そのワードが多く含まれた場合に高いスコアを付与する。



その他、精度を高めるための要素

メタデータ

文書内の情報のみならず、予め一部のキーワードに対して

重みを加えるなど、文書内の情報以外にも評価要素をいれる

ことで更に精度が高まる