Web上のコンテンツや入力情報などが、英語か日本語か判別したいときのメモ

Posted at 2014-11-11

判別の仕方

rubyでは、正規表現で「ひらがな」「カタカナ」「漢字」をそれぞれ、

で表現できるので、とある文字列に日本語が含まれるかどうかの判定は以下で判別できる。

"#{text}" =~ /(?:\p{Hiragana}|\p{Katakana}|[一-龠々])/

"test text desu" =~ /(?:\p{Hiragana}|\p{Katakana}|[一-龠々])/
=> nil

"test text です" =~ /(?:\p{Hiragana}|\p{Katakana}|[一-龠々])/
=> 10
#最初の日本語のindexを出力します。

"test テキスト desu" =~ /(?:\p{Hiragana}|\p{Katakana}|[一-龠々])/
=> 5

"test 試験 desu" =~ /(?:\p{Hiragana}|\p{Katakana}|[一-龠々])/
=> 5