MeCabのインストール
Chaosなるのが嫌なのでyum
で入れる。
まず、リポジトリを登録。
※ なぜかgroongaのとこにいました。
/etc/yum.repos.d/groonga.repo
[groonga]
name=Groonga for CentOS $releasever - $basearch
baseurl=http://packages.groonga.org/centos/6/$basearch/
gpgcheck=1
enabled=1
gpgkey=http://packages.groonga.org/centos/RPM-GPG-KEY-groonga
yum
でインストール
$ yum install -y mecab mecab-devel
NAIST辞書のインストール
ipaよりこちらが主流らしいので。
$ wget http://iij.dl.sourceforge.jp/naist-jdic/53500/mecab-naist-jdic-0.6.3b-20111013.tar.gz
$ tar xvzf mecab-naist-jdic-0.6.3b-20111013.tar.gz
$ cd mecab-naist-jdic-0.6.3b-20111013
$ ./configure --with-charset=utf8 --with-mecab-config=/usr/bin/mecab-config
$ make
$ make install
/etc/mecabrc
を編集し、dicdir
の参照先を変更する。
/etc/mecabrc
;
; Configuration file of MeCab
;
; $Id: mecabrc.in,v 1.3 2006/05/29 15:36:08 taku-ku Exp $;
;
; dicdir = /usr/lib64/mecab/dic/ipadic
dicdir = /usr/lib64/mecab/dic/naist-jdic
; userdic = /home/foo/bar/user.dic
; output-format-type = wakati
; input-buffer-size = 8192
; node-format = %m\n
; bos-format = %S\n
; eos-format = EOS\n
動作確認
$ mecab -D
filename: /usr/lib64/mecab/dic/naist-jdic/sys.dic
version: 102
charset: utf8
type: 0
size: 485863
left size: 1396
right size: 1396
システム辞書に他のソースをいれる
今回はcsvの作成は割愛して、S3の取得から。
辞書ソースになるcsvを/usr/lib64/mecab/dic/naist-jdic
に配置する。
$ aws s3 cp s3://hoge/wikipedia.csv /usr/lib64/mecab/dic/naist-jdic/wikipwdia.csv
$ aws s3 cp s3://hoge/hatena.csv /usr/lib64/mecab/dic/naist-jdic/hatena.csv
$ aws s3 cp s3://hoge/nikoniko.csv /usr/lib64/mecab/dic/naist-jdic/nikoniko.csv
naistのcsvファイルのエンコードを変更する。
$ iconv -f EUC-JP -t UTF-8 /usr/lib64/mecab/dic/naist-jdic/naist-jdic.csv > /usr/lib64/mecab/dic/naist-jdic/naist-jdic.csv
コンパイルする。
※ なぜか他のディレクトリに出力しないとコケる。
$ /usr/libexec/mecab/mecab-dict-index -f utf8 -t utf8 -d /usr/lib64/mecab/dic/naist-jdic -o /usr/local/src/
配置して完了。
$ cp /usr/local/src/sys.dic /usr/lib64/mecab/dic/naist-jdic/sys.dic