Juman++をインストールしてpythonで使える環境を作る
とても精度のいい形態素解析ツールであるJuman++をインストールしてpythonから呼び出して使えるようにしていきたいと思います。
今回はhomebrewとpythonの環境があることを前提としています。
もしできていない人がいればこちらの記事を参考にしてみてください。
Juman++公式ドキュメント
環境
MacBook Pro (13-inch, 2018)
macOS Monterey Version 12.5
メモリ intel Core i5
zsh 5.8.1 (x86_64-apple-darwin21.0)
pythonはhomebrew、pyenv経由で環境構築しています。
Juman++のインストール
早速juman++をhomebrewを使ってインストールしていきましょう。
user@host $brew install jumanpp
入ったか確認します。
無事バージョンが表示されればOKです。
user@host $jumanpp -v
JUMAN++ 1.02
KNPのインストール
次にKNPをインストールします。
user@host $brew tap uetchy/nlp
user@host $brew install knp
完了したらjumanppとknpが動いているかチェックしましょう。
user@host $echo "私はとても疲れたので今日は寝ようと思う" | jumanpp | knp
# S-ID:1 KNP:4.19-CF1.1 DATE:2022/08/03 SCORE:-32.26907
私は─────┐ <体言>
とても─────┐ │
疲れたので─────┤ <用言:動><格解析結果:ガ/-;ヲ/-;ニ/-;デ/-;ヨリ/-;時間/-;修飾/とても;ノ/-;ガ2/->
今日は─────┤ <体言><NE:DATE:今日>
寝ようと─────┐ <用言:動><格解析結果:ガ/私;ヲ/-;ニ/-;ト/-;デ/-;カラ/-;マデ/-;時間/今日;ノ/->
思う<用言:動><格解析結果:ガ/-;ニ/-;ト/寝よう;時間/-;ノ/->
EOS
pyknpのインストール
次にPythonから呼び出すためにpyknpをインストールします。
pip install pyknp
実際に動かしてみる
準備は整ったはずなのでテストしてみましょう。
from pyknp import Juman
sentence="これはテストです"
jumanpp = Juman()
result = jumanpp.analysis(sentence)
for mrph in result.mrph_list():
print("見出し",mrph.midasi,"品詞",mrph.hinsi)
とりあえず動いているのが確認できました。
終わりに
いつも何で何が取り出せてそもそもどんなタグ付けされているのかわからなくなるのでそのうちそれもここにまとめようと思います。(今日は疲れたのでここまでで)
コメント、間違いのご指摘大歓迎です。
今後もjuman++は使うと思うのでちょいちょい気になったことをまとめていきます。