1. commojun

    Posted

    commojun
Changes in title
+MeCabをUTF-8でインストールしたい。
Changes in tags
Changes in body
Source | HTML | Preview
@@ -0,0 +1,79 @@
+
+[mecab](http://taku910.github.io/mecab)といえば、10年前から公開されている日本語の形態素解析エンジン。研究用途やWebサービスのNGワード抽出など、今でもバリバリ活躍しています。
+
+## インストールしてみる
+[こちら](http://taku910.github.io/mecab/#download)を参考に、インストールを進めていきます。
+
+MacやLinuxなどで使いたいときは、`./configure`のときに`--with-charset-=utf8`するのがミソみたいです。
+
+```
+$ tar zxfv mecab-X.X.tar.gz
+$ cd mecab-X.X
+$ ./configure --with-charset=utf8
+$ make
+$ make check
+$ sudo make install
+```
+
+- ここまでは良さそう。
+
+## 辞書をインストール
+MeCab本体と同様に、辞書もインストールします。ここでもやっぱり`./configure --with-charset=utf8`がミソなんですが…。
+
+```
+$ tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
+$ cd mecab-ipadic-2.7.0-XXXX
+$ ./configure --with-charset=utf8
+$ make
+$ sudo make install
+```
+
+ところがこれがうまくいかないのだ。見事に文字化けしている。
+
+```
+$ mecab
+今日もいい天気ですね
+? ̾??,????,*,*,*,*,?,???????,???????
+?日もいい? ????,????,*,*,*,*,*
+?? ̾??,????,*,*,*,*,*
+? ̾??,????,*,*,*,*,*
+?ですね ????,????,*,*,*,*,*
+EOS
+```
+
+## 解決方法
+[似たような問題](http://nymemo.com/sakura/258/)にあたっている方を発見。こちらを参考に、各種ファイルや設定を無理やりUTF-8にしていきます。
+
+```
+$ tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
+$ cd mecab-ipadic-2.7.0-XXXX
+$ nkf -w --overwrite *.csv
+$ nkf -w --overwrite *.def
+```
+
+dicrcを編集
+
+``` dicrc
+- config-charset = EUC-JP
++ config-charset = UTF-8
+```
+
+インストール
+
+```
+$ ./configure --with-charset=utf8
+$ make
+$ sudo make install
+```
+
+これでうまくいくはずです。
+
+```
+$ mecab
+おはようございます
+おはよう 感動詞,*,*,*,*,*,おはよう,オハヨウ,オハヨー
+ござい 助動詞,*,*,*,五段・ラ行特殊,連用形,ござる,ゴザイ,ゴザイ
+ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
+EOS
+```
+