Python
mecab
CDSW

CDSW上で、ローカルにMeCabをインストールする

Cloudera Data Science Workbench (以下CDSW) 上にMeCabをインストールする方法としては、C/C++拡張されたPythonライブラリをCloudera Data Science WorkbenchとSparkクラスタで分散実行するがあるが、単に1ノードでMeCabを使いたい場合、ローカルにインストールするだけでいい。

セッションではroot/sudo権限はないため、$HOME以下にインストールする。

ターミナルを開く

CDSW12 Terminal Access.png

MeCabのインストール

MeCab本体

$ git clone https://github.com/taku910/mecab
$ cd mecab/mecab
$ ./configure --with-charset=utf8 --prefix=$HOME
$ make
$ make install

辞書

$ cd ~/mecab/mecab-ipadic
$ ./configure --with-charset=utf8 --prefix=$HOME
$ make
$ make install

$HOME/bin にパスを通す

$ vi ~/.bashrc

export PATH=${PATH}:${HOME}/bin を追加して、bash起動。

$ bash

NeoLogd辞書

$ git clone https://github.com/neologd/mecab-ipadic-neologd
$ cd mecab-ipadic-neologd
$ bin/install-mecab-ipadic-neologd --prefix $HOME/lib/mecab/dic/mecab-ipadic-neologd

mecab-python3 のインストール

$ pip3 install mecab-python3

環境変数の設定

変数
LD_LIBRARY_PATH ${LD_LIBRARY_PATH}:${HOME}/lib

CDSW12 Project Settings - Engine.png

参考