表記揺れや間違ったキーワードでも検索にヒットさせたい、というニーズを実現するためのアプローチ方法について学びました。
アプローチの分類
- 間違っていてもヒットさせてあげる
- データで頑張る
- 検索時に頑張る
- そもそも間違わないようにしてあげる
間違っていてもヒットさせてあげる
データで頑張る編
間違うであろう内容を先回りして登録していく手法
- 検索ログから間違いの傾向を検出して登録していくとか。
- typoとかに対応しやすい
- Groongaのログから検出するツールがある。
- 某pediaのredirectページを集めて登録するとか。
- 略称や別名は対応しやすい
- 元データを登録時に形態素解析してありうる読みを全部登録していくとか。
- 読み間違えとかに対応しやすい
検索時に頑張る編
検索時にGroongaの力でヒットさせる手法
- 数文字の間違いは誤差として検索できる(fuzzy_search機能)
- fuzzy_search機能を使うと、数文字の誤差を無視してヒットさせる事ができる。
- mroongaでの使い方
- MATCH AGAINST句のクエリを
*SS
で始めるとgroongaのコマンドを書ける。そこでfuzzy_searchコマンドを使えるようになる。- SSはScript Syntaxの略。参考
- MATCH AGAINST句のクエリを
- 類似した文章を検索できる(類似文書検索)
- 類似文書検索をすると、完全に一致していなくてもヒットさせる事ができる。
- mroonga
- MATCH AGAINST句を
IN BOOLEAN MODE
ではなくIN NATURAL LANGUAGE MODE
にすると類似文書検索になる。- 実はデフォルト値なので、
IN BOOLEAN MODE
を削除するだけでもOK。
- 実はデフォルト値なので、
- MATCH AGAINST句を
- 固有名詞を検索させたい場合は、MecabトークンよりBigramを使うといいかも(要検証)
- 類似検索は一部のトークンが一致してればOKという機能なので、小さいトークンにすると一致する確率があがる。
- ノイズが多くなるけど。
- 類似検索は一部のトークンが一致してればOKという機能なので、小さいトークンにすると一致する確率があがる。
そもそも間違わないようにしてあげる
- 時間切れにつき、またの機会に。
まとめ
- 「間違っていてもヒットさせてあげる」においては、検索時よりはデータ収集に力を入れたほうが効果が高そう。
- 「そもそも間違わないようにしてあげる」に力を入れるのがお勧めという説があったので、要勉強。