Janomeを使い方を調べたんでメモ。
Janomeって何?
Janome (蛇の目) は, Pure Python で書かれた, 辞書内包の形態素解析器です.
依存ライブラリなしで簡単にインストールでき, アプリケーションに組み込みやすいシンプルな API を備える形態素解析ライブラリを目指しています.
お試して使おうと思ってる感じなんで、Pythonで使えて、一番手軽そうなJanomeを使うことに。
Mecabと比べて、pip installだけで使えるのは楽。
その他の日本語形態素解析ツールは、こちらのまとめに。
Janomeの使い方
公式ホームページより抜粋。
from janome.tokenizer import Tokenizer
t = Tokenizer()
for token in t.tokenize(u'すもももももももものうち'):
print(token)
Tokenizerの出力について
Tokenizer.tokenizeの結果をprintで出力するとこんな感じ。
いる 動詞,非自立,*,*,一段,基本形,いる,イル,イル
こちらによると、左から「元の単語」、「品詞」、「品詞細分類1」、「分類2」、「分類3」、「活用形」、「活用型」、「原形」、「読み」、「発音」とのこと。
tokenizeの結果は、 以下の文字列のプロパティを持ってる。
- suface: 元の単語
- part_of_speech: [品詞],[品詞細分類1],[分類2],[分類3]
- infl_type: 活用形
- infl_form: 活用型
- base_form: 原型
- reading: 読み
- phonetic: 発音。