日本語テキストを扱う時はよく形態素解析器を利用しています。
特に品詞情報を利用して機能語を排除したりするフィルタリング作業を前処理の段階ですることが多いです。
どのような品詞を使ってどのような品詞は使わないのかを決めるためには形態素解析器に使われている品詞体系を知る必要があります。
一般的に使われているJuman, Chansen, MeCabは下記のような品詞体系を使っています。
形態素解析器 | 品詞体系 |
---|---|
Juman | 益岡・窪田文法を拡張したもの |
Chasen | IPA |
MeCab | IPA |
具体的な内容に関しては下記のサイトによく纏められていますので、ご参考になると思います。
http://www.unixuser.org/~euske/doc/postag/#chasen