More than 5 years have passed since last update.

参考メモ/Java6からのUnicode正規化(java.text.Normalizer)による全角英数記号と日本語特殊文字の変換メモ

Posted at 2016-04-04

Javaで以下のような変換を行いたかったので、Java6からのUnicode正規化(java.text.Normalizer)を試してみたので参考URLなどのメモです。

Unicode正規化の参考URL

Unicode正規化
- http://nomenclator.la.coocan.jp/unicode/normalization.htm
Normalizing Text (The Java™ Tutorials > Internationalization > Working with Text)
- http://docs.oracle.com/javase/tutorial/i18n/text/normalizerapi.html
Normalizer.Form (Java Platform SE 8 )
- https://docs.oracle.com/javase/jp/8/docs/api/java/text/Normalizer.Form.html
Java SE 6 じゃじゃ馬ならし Unicode の正規化
- http://www.javainthebox.net/laboratory/JavaSE6/normalizer/normalizer.html
Java技術最前線 - 「Java SE 6完全攻略」第56回文字列の正規化：ITpro
- http://itpro.nikkeibp.co.jp/article/COLUMN/20071130/288467/?rt=nocnt
Java6にはUnicode正規化の機能がいるそうな : mwSoft blog
- http://blog.mwsoft.jp/article/34823291.html
Unicodeにあるハイフン/マイナス/長音符/波線/チルダのコレクション | hydroculのメモ
- http://hydrocul.github.io/wiki/blog/2014/1101-hyphen-minus-wave-tilde.html
PHPのmb_convert_kanaとUnicodeのNFKC正規化 | hydroculのメモ
- http://hydrocul.github.io/wiki/blog/2014/1127-unicode-nfkd-mb-convert-kana.html

今回の用途で最適だったのはNFKC(互換分解とそれに続く正規合成, Normalizer.Form.NFKC)でした。
サンプルコードからの以下の結果がポイントでした。

扱う文字列が、記号などかなりの率で混在する上に、Windows/Macでそれぞれ入力された濁音・半濁音のかな/カナ文字が混在してくるデータだったので、互換分解した後に正規合成するNFKCが（多分）正規化して「揃える」のには一番適してるのではないでしょうか。