CloudSearch の Analysys Schemes 設定での {Stemming, Synonyms, Tokenization Dictionary} の違いをよく忘れるので、まとめた。
Stemming
単語の活用形をケアする。
running をステム run にマッピングすると、running で検索をかけた時に running だけでなく run も含むドキュメントも一致する。
"running": "run"
Synonyms
Aliases
一方向のシノニム。
↓の例では、ビジネスマンで検索すると、ビジネスマン、ビジネス、人物の 3 つを考慮して検索をかけることになる。
(しかし、ビジネスで検索をかけた時にビジネスマン要素は考慮しない。)
"ビジネスマン": [
"ビジネス",
"人物"
],
Groups
↓同じグループとみなし、全てを同等に考慮して検索をかけることになる。
[
"スマホ",
"スマートフォン",
"スマフォ",
"タブレット",
"スマホタブレット"
],
tokenization dictionary
形態素解析をコントロールする。
例えば「ウェディングドレス」を「ウェディング」と「ドレス」に分けたくない時に、↓のように指定する。
[
"ウェディングドレス",
"ウェディングドレス",
"ウェディングドレス",
"カスタム名詞"
],