CloudSearch ノウハウ
前処理
ここで言う前処理は検索やインデックス時の前に行う処理でCloudSearchでは対応できていない前処理になります.
表記揺れ
文字コード
Unicode正規化 NFKC を使えば以下の様な対応ができる.
-
ウ゛ェネチア=>ヴェネチア
旧字
-
慶應大学=>慶応大学
踊り字
-
々-
刻々=>刻刻 -
複々々線=>複複複線 -
部分々々=>部分部分
-
-
ゞ-
いすゞ自動車=>いすず自動車
-
Analysis Schemes
CloudSearchの機能である程度カスタマイズができるところがある.
Synonym
Aliases
ある単語のエイリアスを登録する仕組みです.
-
ヴェネツィアベネチアヴェネチアヴェニスベニス
Group
ある単語のグループを登録する仕組みです.
煙草タバコたばこ