日本語の形態素解析ツール janome の使い方を紹介。
JanomeはPythonの形態素解析エンジン。
日本語のテキストを形態素ごとに分割して品詞を判定したり分かち書き(単語に分割)することができる
1. Install of "janome"
!pip install janome
2. How to use
from janome.tokenizer import Tokenizer
s = Tokenizer() # <- トークナイザのインスタンスを生成
t = 'にわにわにわにわとりがいる'
tt = '庭には二羽ニワトリがいる'
for _ in s.tokenize(t):
print(_)
for __ in s.tokenize(tt):
print(__)
[Output] ===================================================
に ----- 助詞,格助詞,一般,,,,に,ニ,ニ
わに ----- 名詞,一般,,,,,わに,ワニ,ワニ
わに ----- 名詞,一般,,,,,わに,ワニ,ワニ
わ ----- 助詞,終助詞,,,,,わ,ワ,ワ
にわとり ----- 名詞,一般,,,,,にわとり,ニワトリ,ニワトリ
が ----- 助詞,格助詞,一般,,,,が,ガ,ガ
いる ----- 動詞,自立,,,一段,基本形,いる,イル,イル
庭 ----- 名詞,一般,,,,,庭,ニワ,ニワ
に ----- 助詞,格助詞,一般,,,,に,ニ,ニ
は ----- 助詞,係助詞,,,,,は,ハ,ワ
二 ----- 名詞,数,,,,,二,ニ,ニ
羽 ----- 名詞,接尾,助数詞,,,,羽,ワ,ワ
ニワトリ ----- 名詞,一般,,,,,ニワトリ,ニワトリ,ニワトリ
が ----- 助詞,格助詞,一般,,,,が,ガ,ガ
いる ----- 動詞,自立,,*,一段,基本形,いる,イル,イル
[end] ======================================================