More than 5 years have passed since last update.

rubyでunicode, UTF8を扱うためのTips

Last updated at 2015-12-21Posted at 2015-12-21

Unicodeコードポイント -> 文字列

.ruby

0x1F5FF.chr("UTF-8")
=> "🗿"

.ruby

"🗿".codepoints.map{|v| v.to_s(16)}
=> ["1f5ff"]

.ruby

 "🗿".bytes.map{|v| v.to_s(16)}.join
=> "f09f97bf"

.ruby

puts ["f09f97bf"].pack("H*")
🗿

Unicodeプロパティを使うと楽

.ruby

"🗿".match(/[\p{In_Miscellaneous_Symbols_and_Pictographs}\p{In_Emoticons}]/)
=> #<MatchData "🗿">

Unicodeコンソーシアムが出した文字範囲に関する規格

Rubyの正規表現エンジン「Onigmo」で使えるUnicodeプロパティについては、以下の「Character Property」を参照

めちゃくちゃ長いファイルだけれど、Onigmo のヘッダファイルみればわかる

英文アルファベットではなく 全ての言葉の内、記号、数字、空白ではない文字 を指す

全角カナ
半角カナ
㋐〜㋾ (!)
㌀〜㍗ (!!!)
𛀀(?)
- katakana letter archaic e (U+1B000)
- あ行のえを表した「衣」に由来する片仮名(http://www.akenotsuki.com/eyeben/fonts/)

などなど...

正規表現で範囲指定すれば楽

.ruby

"𠮷".match(/[\u{10000}-\u{10FFFF}]/)
=> #<MatchData "𠮷">