1. commojun

    No comment

    commojun
Changes in body
Source | HTML | Preview
@@ -1,79 +1,80 @@
+# MeCab
[mecab](http://taku910.github.io/mecab)といえば、10年前から公開されている日本語の形態素解析エンジン。研究用途やWebサービスのNGワード抽出など、今でもバリバリ活躍しています。
## インストールしてみる
[こちら](http://taku910.github.io/mecab/#download)を参考に、インストールを進めていきます。
MacやLinuxなどで使いたいときは、`./configure`のときに`--with-charset-=utf8`するのがミソみたいです。
```
$ tar zxfv mecab-X.X.tar.gz
$ cd mecab-X.X
$ ./configure --with-charset=utf8
$ make
$ make check
$ sudo make install
```
- ここまでは良さそう。
## 辞書をインストール
MeCab本体と同様に、辞書もインストールします。ここでもやっぱり`./configure --with-charset=utf8`がミソなんですが…。
```
$ tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
$ cd mecab-ipadic-2.7.0-XXXX
$ ./configure --with-charset=utf8
$ make
$ sudo make install
```
ところがこれがうまくいかないのだ。見事に文字化けしている。
```
$ mecab
今日もいい天気ですね
? ̾??,????,*,*,*,*,?,???????,???????
?日もいい? ????,????,*,*,*,*,*
?? ̾??,????,*,*,*,*,*
? ̾??,????,*,*,*,*,*
?ですね ????,????,*,*,*,*,*
EOS
```
## 解決方法
[似たような問題](http://nymemo.com/sakura/258/)にあたっている方を発見。こちらを参考に、各種ファイルや設定を無理やりUTF-8にしていきます。
```
$ tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
$ cd mecab-ipadic-2.7.0-XXXX
$ nkf -w --overwrite *.csv
$ nkf -w --overwrite *.def
```
dicrcを編集
``` dicrc
- config-charset = EUC-JP
+ config-charset = UTF-8
```
インストール
```
$ ./configure --with-charset=utf8
$ make
$ sudo make install
```
これでうまくいくはずです。
```
$ mecab
おはようございます
おはよう 感動詞,*,*,*,*,*,おはよう,オハヨウ,オハヨー
ござい 助動詞,*,*,*,五段・ラ行特殊,連用形,ござる,ゴザイ,ゴザイ
ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
EOS
```