12
Help us understand the problem. What are the problem?

More than 1 year has passed since last update.

posted at

updated at

Organization

MeCabでの形態素解析 on Mac

目的

形態素解析ツール MeCabをインストールして、pythonから使用できるようにする

環境

MacOX 10.12.6(16G1314) sierra

$ python --version
$ Python 3.6.3

インストール

Homebrewを使用してインストール

MeCabのインストール

$ brew install mecab mecab-ipadic

mecab-python3をインストール

$ pip install mecab-python3

実行

mecab_sample.py
import MeCab

m = MeCab.Tagger()
print(m.parse("コーヒー牛乳とラーメン"))

実行

$ python mecab_sample.py
コーヒー    名詞,一般,*,*,*,*,コーヒー,コーヒー,コーヒー
牛乳  名詞,一般,*,*,*,*,牛乳,ギュウニュウ,ギューニュー
と 助詞,並立助詞,*,*,*,*,と,ト,ト
ラーメン    名詞,一般,*,*,*,*,ラーメン,ラーメン,ラーメン

「コーヒー」と「牛乳」がわかれてしまい、想定通りの結果にならないですね。
そこで、辞書の追加です!

辞書の追加

こちらを追加します。
https://github.com/neologd/mecab-ipadic-neologd

$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
$ cd mecab-ipadic-neologd
$ ./bin/install-mecab-ipadic-neologd -n

辞書を使用した実行

mecab_dic_sample.py
import MeCab

m = MeCab.Tagger('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
print(m.parse("コーヒー牛乳とラーメン"))

実行

$ python mecab_dic_sample.py
コーヒー牛乳  名詞,固有名詞,一般,*,*,*,コーヒー牛乳,コーヒーギュウニュウ,コーヒーギュウニュー
と 助詞,並立助詞,*,*,*,*,と,ト,ト
ラーメン    名詞,一般,*,*,*,*,ラーメン,ラーメン,ラーメン

想定通りになりました!

参考

MeCab
http://www.mwsoft.jp/programming/munou/mecab_command.html

mecab-ipadic-neologd(辞書)
https://github.com/neologd/mecab-ipadic-neologd

Register as a new user and use Qiita more conveniently

  1. You can follow users and tags
  2. you can stock useful information
  3. You can make editorial suggestions for articles
What you can do with signing up
12
Help us understand the problem. What are the problem?