検索エンジンの本を読んでいて、独断と偏見で重要語認定した用語(単純によく見る単語)。
全文検索
全文とは「全」部の「文」を意味しており、検索の対象が「テキストからなる文書の全部の文」である場合に、その文書に対して検索を行うことを全文検索と言う。
ファイル名だけ検索する「ファイル名検索」や、「単一ファイル内の文字列検索」とは異なり、文書に含まれる全文を対象とした検索という意味で使われる。
インデックス
高速な検索が行えるように構成されたデータのこと。
インデックスを生成することをインデキシングと呼ぶ。
トークナイズ
文書をトークンに分解すること。
一般的にトークナイズには以下の2種類がある。
- 形態素解析
- N-gram
トークナイズ処理を行うモノをトークナイザと呼ぶ。
■ トークナイズの例:「東京都と神奈川県」
# 形態素解析
東京/都/と/神奈川/県
# 2-gram
東京/京都/都と/と神/神奈/奈川/川県
ステミング
語形の変化を取り除き、同一の単語表現に変換する処理のこと。
例えば、「run」というクエリで検索をした場合でもrunnerやrunningなどのキーワードとマッチングさせること。
- ステム = 木の幹。この場合「語幹」の意味と取れば良い。
- 語幹 = 語形変化の基礎になる部分。(「歩く」であれば「歩」、「早い」であれば「早」がそれぞれ語幹にあたる)
ノーマライズ
日本語にすると正規化。
一定のルールに従い、データを利用しやすいように整形すること。
例えば、全角文字列を全て半角文字列に変換するような処理。ユーザが全角、半角のどちらを使っても変換処理によって引き当てることができる。
※ ノーマライズという言葉は検索の文脈以外にも多くの分野で使われているらしいので注意。
ストップワード
自然言語を処理するにあたって、一般的であるなどの理由で処理対象外とする単語のこと。
例えば日本語の助詞「は」は非常に頻繁に利用されるが、それ自体には情報が無い。
英語では「the」や「a」、「for」などの前置詞がストップワードになることが多いようだ。
参考
- 全文検索・インデックス
- トークナイズ
- ストップワード
- ノーマライズ
- ステミング