MeCab
mecabといえば、10年前から公開されている日本語の形態素解析エンジン。研究用途やWebサービスのNGワード抽出など、今でもバリバリ活躍しています。
インストールしてみる
こちらを参考に、インストールを進めていきます。
MacやLinuxなどで使いたいときは、./configure
のときに--with-charset-=utf8
するのがミソみたいです。
$ tar zxfv mecab-X.X.tar.gz
$ cd mecab-X.X
$ ./configure --with-charset=utf8
$ make
$ make check
$ sudo make install
- ここまでは良さそう。
辞書をインストール
MeCab本体と同様に、辞書もインストールします。ここでもやっぱり./configure --with-charset=utf8
がミソなんですが…。
$ tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
$ cd mecab-ipadic-2.7.0-XXXX
$ ./configure --with-charset=utf8
$ make
$ sudo make install
ところがこれがうまくいかないのだ。見事に文字化けしている。
$ mecab
今日もいい天気ですね
? ̾??,????,*,*,*,*,?,???????,???????
?日もいい? ????,????,*,*,*,*,*
?? ̾??,????,*,*,*,*,*
? ̾??,????,*,*,*,*,*
?ですね ????,????,*,*,*,*,*
EOS
解決方法
似たような問題にあたっている方を発見。こちらを参考に、各種ファイルや設定を無理やりUTF-8にしていきます。
$ tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
$ cd mecab-ipadic-2.7.0-XXXX
$ nkf -w --overwrite *.csv
$ nkf -w --overwrite *.def
dicrcを編集
- config-charset = EUC-JP
+ config-charset = UTF-8
インストール
$ ./configure --with-charset=utf8
$ make
$ sudo make install
これでうまくいくはずです。
$ mecab
おはようございます
おはよう 感動詞,*,*,*,*,*,おはよう,オハヨウ,オハヨー
ござい 助動詞,*,*,*,五段・ラ行特殊,連用形,ござる,ゴザイ,ゴザイ
ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
EOS