More than 5 years have passed since last update.

[Ruby] String#gsub で半角カタカナを全角カタカナに変換する

Last updated at 2019-10-18Posted at 2019-07-24

方法

'ﾀﾋﾟｵｶ'.gsub(/[\uFF61-\uFF9F]+/) { |str| str.unicode_normalize(:nfkc) }
# => "タピオカ"

'ﾀﾋﾟｵｶ'.unicode_normalize と書かずに gsub を介しているのは、Unicode 正規化を適用する文字列を限定し、想定外の置換が起きないようにするため。
半角カタカナの Unicode コードポイントについては、@scivola さんのコメント、および Wikipedia の半角カナ ≫ Unicode (UTF-8, UTF-16 など) を参考にした。

@scivola さんにコメントをいただく前に紹介したいた方法。半角カタカナ以外も Unicode 正規化してしまうため改善が必要だった。

'ｶﾝﾀﾞﾀ'.gsub(/\p{In_Halfwidth_and_Fullwidth_Forms}+/) { |str| str.unicode_normalize(:nfkd) }
# => "カンダタ"

Ruby の正規表現では \p{} で Unicode プロパティを指定できる。
- 指定可能な Unicode プロパティの一覧は Onigmo/doc/UnicodeProps.txt¹ を参照すること
- 半角カタカナや半角濁点・半濁点は Halfwidth and Fullwidth Forms に属している。

Unicode 正規化について復習するのに以下のページが役立った。