#はじめに
今回、改めてUbuntuにMeCabを入れ直す必要に迫られました。
かなり時間を使ってしまったので、忘れた時ようにメモします。
#実行環境
Ubuntu 16.04 LTS
Python 3.6.3
Jupyter Notebook 1.0.0
#インストール方法
公式ホームページから、ダウンロードしてmakeして、、、 とやって文字化けでハマっていましたが、以下のようにapt-get と pipで簡単に環境構築できました。
sudo apt-get install mecab libmecab-dev mecab-ipadic mecab-ipadic-utf8
pip install mecab-python3
また、さらに最近の言葉まで対応している辞書であるNEologdを導入します。
何と週2回以上更新されているそうです。
git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
cd mecab-ipadic-neologd
./bin/install-mecab-ipadic-neologd -n -a
mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd/
#テストコード
from io import StringIO
import pandas as pd
import MeCab
m = MeCab.Tagger('-Ochasen')
analyzed = m.parse('我輩は猫である。名前はまだ無い。')
df_analyzed = pd.read_csv(StringIO(analyzed), delimiter='\t', names=['単語', '読み','原形', '品詞', '活用', '活用形'])
df_analyzed
単語 | 読み | 原形 | 品詞 | 活用 | 活用形 | |
---|---|---|---|---|---|---|
0 | 我輩は猫である | ワガハイハネコデアル | 我輩は猫である | 名詞-固有名詞-一般 | NaN | NaN |
1 | 。 | 。 | 。 | 記号-句点 | NaN | NaN |
2 | 名前 | ナマエ | 名前 | 名詞-一般 | NaN | NaN |
3 | は | ハ | は | 助詞-係助詞 | NaN | NaN |
4 | まだ | マダ | まだ | 副詞-助詞類接続 | NaN | NaN |
5 | 無い | ナイ | 無い | 形容詞-自立 | 形容詞・アウオ段 | 基本形 |
6 | 。 | 。 | 。 | 記号-句点 | NaN | NaN |
7 | EOS | NaN | NaN | NaN | NaN | NaN |
df_analyzed['単語']
0 我輩は猫である
1 。
2 名前
3 は
4 まだ
5 無い
6 。
7 EOS
Name: 単語, dtype: object
# 参考資料
MecabをUbuntu14.0.4にインストールして実行してみる
新語・固有表現に強い「mecab-ipadic-NEologd」の効果を調べてみた
mecab-ipadic-NEologd : Neologism dictionary for MeCab