「検索システム実務者のための開発改善ガイドブック」を読んだ (第4章まで)

Posted at 2025-04-13

第一章イントロダクション

英語のテキスト解析は、大文字小文字を区別しない、複数形、三人称単数、現在進行形をまとめてstem変換(ステミング)する
日本語のテキスト解析は、 形態素解析機 もしくは N-Gram
- 形態素解析機は、辞書を利用してトークンにする
- N-Gramは、x文字ごとにトークンにする
そのほかの処理として、Unicode正規化、ストップワード、類義語の展開がある

ランキングを考慮しないときは、ポスティングリストを順番に進めていくだけ
ドキュメントベクトルとクエリベクトルのコサイン類似度が「近さ」の指標
TF-IDFによる重み付のドキュメントベクトル
- $$weight(t,d) = (1 + log(tf_{t,d}))・log(N/{df_t})$$
- $weight(t,d)$は、あるタームとあるドキュメントの重み
- $tf_{t,d}$は、ドキュメント$d$中のターム $t$の出現回数
- $df_t$は、ターム $t$ が出現するドキュメント数
ランキングを考慮するときは、TF-IDFを計算して進めていく
パフォーマンスは、レイテンシとスループットを計算する