LoginSignup
13
11

More than 3 years have passed since last update.

Pythonで文の日本語判定を行う

Last updated at Posted at 2019-07-28

100文字程度の短い文が日本語かどうかを判定したい場合があります。
単純な方法として、ひらがな、もしくは、カタカナが含まれているかどうかを見ることで、近似的に判定することができます。

import re
def is_japanese(str):
    return True if re.search(r'[ぁ-んァ-ン]', str) else False 

厳密にはこの方法では不十分です。
漢字だけの日本語文もあれば、英文中に顔文字としてカタカナが使われたりすることもあります。
それでも、これだけで必要十分な篩い分けができるので重宝している方法です。
対象とする文書群や問題によっては有効であるかと思います。

13
11
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
13
11