LoginSignup
15

More than 5 years have passed since last update.

MeCabで文字コードの違う辞書を使う

Last updated at Posted at 2014-02-23

MeCabで文字コードの違う辞書を使いたいときは辞書を再構築しなくてはいけない。rootがなかったりするサーバでは(でもMeCabは入ってる、みたいなとき)、自分で辞書を再構築して、それを使いたいという状況も出てくる。

そこで、自分で辞書を再構築し、その辞書を用いるという方法を紹介してみる。今回はutf8の辞書をつくる。

その前に、文字コードの確認方法

$ mecab -P | grep config-charset
config-charset: EUC-JP
....

指定しないとEUC-JPらしい。

辞書を落として解凍する

$ wget https://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.tar.gz
$ tar zxvf mecab-ipadic-2.7.0-20070801.tar.gz

辞書の構築

ホームディレクトリ以下のlocalに置いてみます。

$ ./configure --prefix=$HOME/local --with-charset=utf8
$ make
$ make install
...

done!
echo To enable dictionary, rewrite /home/kenta.hara/local/etc/mecabrc as \"dicrc = HOME/local/lib/mecab/dic/ipadic\"
To enable dictionary, rewrite /home/kenta.hara/local/etc/mecabrc as "dicrc = HOME/local/lib/mecab/dic/ipadic"

最後にどこへインストールしたかが出るので参考にしたい人は覚えておくといい

使い方/辞書の指定方法

-dオプションで辞書のディレクトリを指定する。

$ echo "いい天気ですね" | mecab
いい      ̾��,����,*,*,*,*,*
天気      ̾��,����,*,*,*,*,*
ですね   ̾��,����,*,*,*,*,*
EOS

$ echo "いい天気ですね" | mecab -d $HOME/local/lib/mecab/dic/ipadic
いい  形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ
天気  名詞,一般,*,*,*,*,天気,テンキ,テンキ
です  助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
ね 助詞,終助詞,*,*,*,*,ね,ネ,ネ
EOS

文字化けしなくなった。

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
15