LoginSignup
6
5

More than 5 years have passed since last update.

CloudSearch の Stemming、Synonyms、Tokenization Dictionary の違いまとめ

Posted at

CloudSearch の Analysys Schemes 設定での {Stemming, Synonyms, Tokenization Dictionary} の違いをよく忘れるので、まとめた。

Stemming

単語の活用形をケアする。
running をステム run にマッピングすると、running で検索をかけた時に running だけでなく run も含むドキュメントも一致する。

"running": "run"

Synonyms

Aliases

一方向のシノニム。
↓の例では、ビジネスマンで検索すると、ビジネスマン、ビジネス、人物の 3 つを考慮して検索をかけることになる。
(しかし、ビジネスで検索をかけた時にビジネスマン要素は考慮しない。)

  "ビジネスマン": [
    "ビジネス",
    "人物"
  ],

Groups

↓同じグループとみなし、全てを同等に考慮して検索をかけることになる。

  [
    "スマホ",
    "スマートフォン",
    "スマフォ",
    "タブレット",
    "スマホタブレット"
  ],

tokenization dictionary

形態素解析をコントロールする。
例えば「ウェディングドレス」を「ウェディング」と「ドレス」に分けたくない時に、↓のように指定する。

  [
    "ウェディングドレス",
    "ウェディングドレス",
    "ウェディングドレス",
    "カスタム名詞"
  ],
6
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
5