CloudSearch ノウハウ
前処理
ここで言う前処理は検索やインデックス時の前に行う処理でCloudSearchでは対応できていない前処理になります.
表記揺れ
文字コード
Unicode正規化 NFKC を使えば以下の様な対応ができる.
-
ウ゛ェネチア
=>ヴェネチア
旧字
-
慶應大学
=>慶応大学
踊り字
-
々
-
刻々
=>刻刻
-
複々々線
=>複複複線
-
部分々々
=>部分部分
-
-
ゞ
-
いすゞ自動車
=>いすず自動車
-
Analysis Schemes
CloudSearchの機能である程度カスタマイズができるところがある.
Synonym
Aliases
ある単語のエイリアスを登録する仕組みです.
-
ヴェネツィア
ベネチア
ヴェネチア
ヴェニス
ベニス
Group
ある単語のグループを登録する仕組みです.
煙草
タバコ
たばこ