LoginSignup
17
13

More than 5 years have passed since last update.

【備忘録】MeCabをUbuntuにインストールしてPython3系で使う。

Last updated at Posted at 2017-12-09

はじめに

今回、改めてUbuntuにMeCabを入れ直す必要に迫られました。
かなり時間を使ってしまったので、忘れた時ようにメモします。

実行環境

Ubuntu 16.04 LTS
Python 3.6.3
Jupyter Notebook 1.0.0

インストール方法

公式ホームページから、ダウンロードしてmakeして、、、 とやって文字化けでハマっていましたが、以下のようにapt-get と pipで簡単に環境構築できました。

sudo apt-get install mecab libmecab-dev mecab-ipadic mecab-ipadic-utf8
pip install mecab-python3

また、さらに最近の言葉まで対応している辞書であるNEologdを導入します。
何と週2回以上更新されているそうです。

git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
cd mecab-ipadic-neologd
 ./bin/install-mecab-ipadic-neologd -n -a
mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd/

テストコード

from io import StringIO
import pandas as pd

import MeCab

m = MeCab.Tagger('-Ochasen')
analyzed = m.parse('我輩は猫である。名前はまだ無い。')

df_analyzed = pd.read_csv(StringIO(analyzed), delimiter='\t', names=['単語', '読み','原形', '品詞', '活用', '活用形'])

df_analyzed
単語 読み 原形 品詞 活用 活用形
0 我輩は猫である ワガハイハネコデアル 我輩は猫である 名詞-固有名詞-一般 NaN NaN
1 記号-句点 NaN NaN
2 名前 ナマエ 名前 名詞-一般 NaN NaN
3 助詞-係助詞 NaN NaN
4 まだ マダ まだ 副詞-助詞類接続 NaN NaN
5 無い ナイ 無い 形容詞-自立 形容詞・アウオ段 基本形
6 記号-句点 NaN NaN
7 EOS NaN NaN NaN NaN NaN
df_analyzed['単語']
0    我輩は猫である
1          。
2         名前
3          は
4         まだ
5         無い
6          。
7        EOS
Name: 単語, dtype: object

 参考資料

MecabをUbuntu14.0.4にインストールして実行してみる
新語・固有表現に強い「mecab-ipadic-NEologd」の効果を調べてみた
mecab-ipadic-NEologd : Neologism dictionary for MeCab

17
13
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
17
13