Qiita Engineer Festa20242024年7月17日まで開催中！

PythonでMeCabを試した

Posted at 2024-06-11

環境

Windowsに入れているAnacondaの仮想環境
Python3

やってみた

pip install mecab-python3

これでインストールした。

そして実行。

import MeCab
tagger = MeCab.Tagger("Ochasen")
print(tagger.parse("すもももももももものうち").split())

['す\udce3', 'す\udce3', 'す\udce3', '\udc96\udcbc\udc8e\udc8c-\udc88\udcea\udc94\udcca', '\udc82\udc82', '\udc83r\udc81[', '\udc82\udc82', '\udc8bL\udc8d\udc86-\udc83A\udc83\udc8b\udc83t\udc83@\udc83x\udc83b\udc83g', '\udce3\udc82', '\udce3\udc82', '\udce3\udc82', '\udc96\udcbc\udc8e\udc8c-\udc88\udcea\udc94\udcca', '\udc82\udce3', '\udc82\udce3', '\udc82\udce3', '\udc96\udcbc\udc8e\udc8c-\udc88\udcea\udc94\udcca', '\udc82\udc82', '\udc83r\udc81[', '\udc82\udc82', '\udc8bL\udc8d\udc86-\udc83A\udc83\udc8b\udc83t\udc83@\udc83x\udc83b\udc83g', '\udce3\udc82', '\udce3\udc82', '\udce3\udc82', '\udc96\udcbc\udc8e\udc8c-\udc88\udcea\udc94\udcca', '\udc82\udce3', '\udc82\udce3', '\udc82\udce3', '\udc96\udcbc\udc8e\udc8c-\udc88\udcea\udc94\udcca', '\udc82\udc82', '\udc83r\udc81[', '\udc82\udc82', '\udc8bL\udc8d\udc86-\udc83A\udc83\udc8b\udc83t\udc83@\udc83x\udc83b\udc83g', '\udce3\udc82', '\udce3\udc82', '\udce3\udc82', '\udc96\udcbc\udc8e\udc8c-\udc88\udcea\udc94\udcca', '\udc82\udce3', '\udc82\udce3', '\udc82\udce3', '\udc96\udcbc\udc8e\udc8c-\udc88\udcea\udc94\udcca', '\udc82\udc82', '\udc83r\udc81[', '\udc82\udc82', '\udc8bL\udc8d\udc86-\udc83A\udc83\udc8b\udc83t\udc83@\udc83x\udc83b\udc83g', '\udce3\udc82', '\udce3\udc82', '\udce3\udc82', '\udc96\udcbc\udc8e\udc8c-\udc88\udcea\udc94\udcca', '\udc82\udce3', '\udc82\udce3', '\udc82\udce3', '\udc96\udcbc\udc8e\udc8c-\udc88\udcea\udc94\udcca', '\udc81\udcae', '\udc81\udcae', '\udc81\udcae', '\udc8bL\udc8d\udc86-\udc88\udcea\udc94\udcca', '\udce3\udc81', '\udce3\udc81', '\udce3\udc81', '\udc96\udcbc\udc8e\udc8c-\udc8cŗL\udc96\udcbc\udc8e\udc8c-\udc91g\udc90D', '\udc86\udce3', '\udc86\udce3', '\udc86\udce3', '\udc8bL\udc8d\udc86-\udc88\udcea\udc94\udcca', '\udc81\udca1', '\udc81\udca1', '\udc81\udca1', '\udc8bL\udc8d\udc86-\udc88\udcea\udc94\udcca', 'EOS']

なんか思ってたんと違ーう。

修正

ちょっとググったらこれをインストールするって説明を発見。辞書っぽい。
合ってるのかわかんないけど試してみる。（適当）

pip install unidic-lite

tagger = MeCab.Tagger("-Owakati")
print(tagger.parse("すもももももももものうち").split())

['すもも', 'も', 'もも', 'も', 'もも', 'の', 'うち']

おお、これが顧客が求めていたもの。
別の文章も試してみよう。

print(tagger.parse("吾輩は猫である。名前はまだない。").split())

['吾輩', 'は', '猫', 'で', 'ある', '。', '名前', 'は', 'まだ', 'ない', '。']

ばっちり出た。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up