LoginSignup
9
8

More than 5 years have passed since last update.

MeCabのセットアップ

Last updated at Posted at 2015-02-24

MeCabのインストール

Chaosなるのが嫌なのでyumで入れる。

まず、リポジトリを登録。
※ なぜかgroongaのとこにいました。

/etc/yum.repos.d/groonga.repo
[groonga]
name=Groonga for CentOS $releasever - $basearch
baseurl=http://packages.groonga.org/centos/6/$basearch/
gpgcheck=1
enabled=1
gpgkey=http://packages.groonga.org/centos/RPM-GPG-KEY-groonga

yumでインストール

$ yum install -y mecab mecab-devel

NAIST辞書のインストール

ipaよりこちらが主流らしいので。

$ wget http://iij.dl.sourceforge.jp/naist-jdic/53500/mecab-naist-jdic-0.6.3b-20111013.tar.gz
$ tar xvzf mecab-naist-jdic-0.6.3b-20111013.tar.gz
$ cd mecab-naist-jdic-0.6.3b-20111013
$ ./configure --with-charset=utf8 --with-mecab-config=/usr/bin/mecab-config
$ make
$ make install

/etc/mecabrcを編集し、dicdirの参照先を変更する。

/etc/mecabrc
;
; Configuration file of MeCab
;
; $Id: mecabrc.in,v 1.3 2006/05/29 15:36:08 taku-ku Exp $;
;
; dicdir = /usr/lib64/mecab/dic/ipadic
dicdir = /usr/lib64/mecab/dic/naist-jdic

; userdic = /home/foo/bar/user.dic

; output-format-type = wakati
; input-buffer-size = 8192

; node-format = %m\n
; bos-format = %S\n
; eos-format = EOS\n

動作確認

$ mecab -D

filename:   /usr/lib64/mecab/dic/naist-jdic/sys.dic
version:    102
charset:    utf8
type:   0
size:   485863
left size:  1396
right size: 1396

システム辞書に他のソースをいれる

今回はcsvの作成は割愛して、S3の取得から。
辞書ソースになるcsvを/usr/lib64/mecab/dic/naist-jdicに配置する。

$ aws s3 cp s3://hoge/wikipedia.csv /usr/lib64/mecab/dic/naist-jdic/wikipwdia.csv
$ aws s3 cp s3://hoge/hatena.csv /usr/lib64/mecab/dic/naist-jdic/hatena.csv
$ aws s3 cp s3://hoge/nikoniko.csv /usr/lib64/mecab/dic/naist-jdic/nikoniko.csv

naistのcsvファイルのエンコードを変更する。

$ iconv -f EUC-JP -t UTF-8 /usr/lib64/mecab/dic/naist-jdic/naist-jdic.csv > /usr/lib64/mecab/dic/naist-jdic/naist-jdic.csv

コンパイルする。
※ なぜか他のディレクトリに出力しないとコケる。

$ /usr/libexec/mecab/mecab-dict-index -f utf8 -t utf8 -d /usr/lib64/mecab/dic/naist-jdic -o /usr/local/src/

配置して完了。

$ cp /usr/local/src/sys.dic /usr/lib64/mecab/dic/naist-jdic/sys.dic
9
8
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
9
8