#概要
開発中のエロサイトえろろぼを言語処理させたい思いつく。(手前味噌ながら裏側で色々走っている)
Pythonに形態素解析器のMeCabと自然言語処理のライブラリのgensimの利用を試みる
#作業
環境はUbuntu,Debian系。CentOSとかでもapt-getをyumに変えるだけでいけるはず。
MeCabとMecabのライブラリ、基本辞書のツールをセットアップ
apt-get install mecab libmecab-dev mecab-ipadic-utf8
apt-get install git make curl xz-utils file sudo
mecab-ipadic-NEologdeをインストール
git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
cd mecab-ipadic-neologd
./bin/install-mecab-ipadic-neologd -n -p /var/lib/mecab/dic/mecab-ipadic-neologd
インストールして良いか尋ねられるので「yes」とうつとインストールが完了
Pythonで使えるように。
pip3 install gensim
mecab-python3のインストール
pip3 install mecab-python3
ここでエラーが発生
Command "python setup.py egg_info" failed with error code 1 in /private/var/folders/db/zj9vr1xx11vdn8yzb3bvp6xw0000gn/T/pip-install-31zuvfh1/mecab-python3/
Setup.pyを書き換えたり、pipをアップデートしたりしたが効果なし。
英語でも色々格闘したけど効果なし。
mecab-pythonのパッケージを直接インストールしてみた。
ソースをダウンロード→解答→インストール
※人によったらpython3のコマンドの場合も。バージョンを確認してみて下さい。
wget https://files.pythonhosted.org/packages/1e/50/86ac8277b89c256509c934656be69ff7aef0ce795cac185b0222f44b8196/mecab-python3-0.8.2.tar.gz
tar zxfv mecab-python3-0.8.2.tar.gz
cd mecab-python3-0.8.2
python setup.py build
sudo python setup.py install
これ無事PythonでMecabが使えるようになりましたよっと。