目的
形態素解析ツール MeCabをインストールして、pythonから使用できるようにする
環境
MacOX 10.12.6(16G1314) sierra
$ python --version
$ Python 3.6.3
インストール
Homebrewを使用してインストール
MeCabのインストール
$ brew install mecab mecab-ipadic
mecab-python3をインストール
$ pip install mecab-python3
実行
mecab_sample.py
import MeCab
m = MeCab.Tagger()
print(m.parse("コーヒー牛乳とラーメン"))
実行
$ python mecab_sample.py
コーヒー 名詞,一般,*,*,*,*,コーヒー,コーヒー,コーヒー
牛乳 名詞,一般,*,*,*,*,牛乳,ギュウニュウ,ギューニュー
と 助詞,並立助詞,*,*,*,*,と,ト,ト
ラーメン 名詞,一般,*,*,*,*,ラーメン,ラーメン,ラーメン
「コーヒー」と「牛乳」がわかれてしまい、想定通りの結果にならないですね。
そこで、辞書の追加です!
辞書の追加
こちらを追加します。
https://github.com/neologd/mecab-ipadic-neologd
$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
$ cd mecab-ipadic-neologd
$ ./bin/install-mecab-ipadic-neologd -n
辞書を使用した実行
mecab_dic_sample.py
import MeCab
m = MeCab.Tagger('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
print(m.parse("コーヒー牛乳とラーメン"))
実行
$ python mecab_dic_sample.py
コーヒー牛乳 名詞,固有名詞,一般,*,*,*,コーヒー牛乳,コーヒーギュウニュウ,コーヒーギュウニュー
と 助詞,並立助詞,*,*,*,*,と,ト,ト
ラーメン 名詞,一般,*,*,*,*,ラーメン,ラーメン,ラーメン
想定通りになりました!
参考
MeCab
http://www.mwsoft.jp/programming/munou/mecab_command.html
mecab-ipadic-neologd(辞書)
https://github.com/neologd/mecab-ipadic-neologd