MeCabで文字コードの違う辞書を使いたいときは辞書を再構築しなくてはいけない。rootがなかったりするサーバでは(でもMeCabは入ってる、みたいなとき)、自分で辞書を再構築して、それを使いたいという状況も出てくる。
そこで、自分で辞書を再構築し、その辞書を用いるという方法を紹介してみる。今回はutf8の辞書をつくる。
その前に、文字コードの確認方法
$ mecab -P | grep config-charset
config-charset: EUC-JP
....
指定しないとEUC-JPらしい。
辞書を落として解凍する
$ wget https://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.tar.gz
$ tar zxvf mecab-ipadic-2.7.0-20070801.tar.gz
辞書の構築
ホームディレクトリ以下のlocalに置いてみます。
$ ./configure --prefix=$HOME/local --with-charset=utf8
$ make
$ make install
...
done!
echo To enable dictionary, rewrite /home/kenta.hara/local/etc/mecabrc as \"dicrc = HOME/local/lib/mecab/dic/ipadic\"
To enable dictionary, rewrite /home/kenta.hara/local/etc/mecabrc as "dicrc = HOME/local/lib/mecab/dic/ipadic"
最後にどこへインストールしたかが出るので参考にしたい人は覚えておくといい
使い方/辞書の指定方法
-dオプションで辞書のディレクトリを指定する。
$ echo "いい天気ですね" | mecab
いい ̾��,����,*,*,*,*,*
天気 ̾��,����,*,*,*,*,*
ですね ̾��,����,*,*,*,*,*
EOS
$ echo "いい天気ですね" | mecab -d $HOME/local/lib/mecab/dic/ipadic
いい 形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ
天気 名詞,一般,*,*,*,*,天気,テンキ,テンキ
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
ね 助詞,終助詞,*,*,*,*,ね,ネ,ネ
EOS
文字化けしなくなった。