Edited at

MeCabをUTF-8でインストールしたい。

More than 1 year has passed since last update.


MeCab

mecabといえば、10年前から公開されている日本語の形態素解析エンジン。研究用途やWebサービスのNGワード抽出など、今でもバリバリ活躍しています。


インストールしてみる

こちらを参考に、インストールを進めていきます。

MacやLinuxなどで使いたいときは、./configureのときに--with-charset-=utf8するのがミソみたいです。

$ tar zxfv mecab-X.X.tar.gz

$ cd mecab-X.X
$ ./configure --with-charset=utf8
$ make
$ make check
$ sudo make install


  • ここまでは良さそう。


辞書をインストール

MeCab本体と同様に、辞書もインストールします。ここでもやっぱり./configure --with-charset=utf8がミソなんですが…。

$ tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz

$ cd mecab-ipadic-2.7.0-XXXX
$ ./configure --with-charset=utf8
$ make
$ sudo make install

ところがこれがうまくいかないのだ。見事に文字化けしている。

$ mecab

今日もいい天気ですね
? ̾??,????,*,*,*,*,?,???????,???????
?日もいい? ????,????,*,*,*,*,*
?? ̾??,????,*,*,*,*,*
? ̾??,????,*,*,*,*,*
?ですね ????,????,*,*,*,*,*
EOS


解決方法

似たような問題にあたっている方を発見。こちらを参考に、各種ファイルや設定を無理やりUTF-8にしていきます。

$ tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz

$ cd mecab-ipadic-2.7.0-XXXX
$ nkf -w --overwrite *.csv
$ nkf -w --overwrite *.def

dicrcを編集

- config-charset = EUC-JP

+ config-charset = UTF-8

インストール

$ ./configure --with-charset=utf8

$ make
$ sudo make install

これでうまくいくはずです。

$ mecab

おはようございます
おはよう 感動詞,*,*,*,*,*,おはよう,オハヨウ,オハヨー
ござい 助動詞,*,*,*,五段・ラ行特殊,連用形,ござる,ゴザイ,ゴザイ
ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
EOS