参考URL
- pythonによる日本語前処理備忘録
- Word2Vec, MeCab, ComeJisyo で病気の症状類似語を出してみた
- UbuntuでmecabにComeJisyo(医療用語辞書)を追加する(コマンドのみ)
- 今更ながらPythonとMeCabで形態素解析してみた
mecab
日本語形態素解析エンジンのデファクト。
先人の残したブログ記事が多数存在しているため、僕のような初心者はこれを使うことをお勧めします。
ただし、設定時に色々と手こずったので動かすまでの手順をまとめます。
環境
- os
- macOS 10.13.6
- シェル
- zsh
- Python
- 3.6.4
- 環境分離ツール(詳しくない方はこの記事がおすすめ)
- pyenv
- pyenv+virtualenv
1.mecabをjupyterで動かす
Python環境が正しく構築できてないと、ここで1週間くらい溶かします。(→僕がそうでした)
特にAnacondaで環境を作ってる方。
(さらに、何もわからずにブラウザからAnacondaを落として適当にインストールした方→これも僕です)
当てはまる方はAnaconda環境を爆破して、
この記事を参考に、再度環境を作り直すことをお勧めします。
(→これも僕です。環境作るのは1日もかからないです)
mecabと辞書をインストール
zsh
#mecabをインストール
brew install mecab
#mecabの辞書をインストール
brew install mecab-ipadic
mecab-python3をインストール
zsh
#mecab操作用のpythonライブラリをインストール
pip install mecab-python3
試しに動かしてみる
python
import MeCab
tagger = MeCab.Tagger('')
print(tagger.parse('私は貝になりたい'))
#私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
#は 助詞,係助詞,*,*,*,*,は,ハ,ワ
#貝 名詞,一般,*,*,*,*,貝,カイ,カイ
#に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
#なり 動詞,自立,*,*,五段・ラ行,連用形,なる,ナリ,ナリ
#たい 助動詞,*,*,*,特殊・タイ,基本形,たい,タイ,タイ
#EOS
問題なく動いてそうです。
通常の用途であればこれで完成!
2.mecabに辞書を追加する
mecabでは、利用する辞書を変更することが可能。
今回は医療用の辞書、ComeJisyoを入れてみる。
ComeJisyoをダウンロード
ここからダウンロードしてください。