Help us understand the problem. What is going on with this article?

MeCabをUTF-8でインストールしたい。

More than 3 years have passed since last update.

MeCab

mecabといえば、10年前から公開されている日本語の形態素解析エンジン。研究用途やWebサービスのNGワード抽出など、今でもバリバリ活躍しています。

インストールしてみる

こちらを参考に、インストールを進めていきます。

MacやLinuxなどで使いたいときは、./configureのときに--with-charset-=utf8するのがミソみたいです。

$ tar zxfv mecab-X.X.tar.gz
$ cd mecab-X.X
$ ./configure --with-charset=utf8
$ make
$ make check
$ sudo make install
  • ここまでは良さそう。

辞書をインストール

MeCab本体と同様に、辞書もインストールします。ここでもやっぱり./configure --with-charset=utf8がミソなんですが…。

$ tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
$ cd mecab-ipadic-2.7.0-XXXX
$ ./configure --with-charset=utf8
$ make
$ sudo make install

ところがこれがうまくいかないのだ。見事に文字化けしている。

$ mecab
今日もいい天気ですね
?   ̾??,????,*,*,*,*,?,???????,???????
?日もいい?  ????,????,*,*,*,*,*
??  ̾??,????,*,*,*,*,*
?   ̾??,????,*,*,*,*,*
?ですね  ????,????,*,*,*,*,*
EOS

解決方法

似たような問題にあたっている方を発見。こちらを参考に、各種ファイルや設定を無理やりUTF-8にしていきます。

$ tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
$ cd mecab-ipadic-2.7.0-XXXX
$ nkf -w --overwrite *.csv
$ nkf -w --overwrite *.def

dicrcを編集

- config-charset = EUC-JP
+ config-charset = UTF-8

インストール

$ ./configure --with-charset=utf8
$ make
$ sudo make install

これでうまくいくはずです。

$ mecab
おはようございます
おはよう    感動詞,*,*,*,*,*,おはよう,オハヨウ,オハヨー
ござい   助動詞,*,*,*,五段・ラ行特殊,連用形,ござる,ゴザイ,ゴザイ
ます  助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
EOS
commojun
エンジニアをしています。
http://commojun.com/
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away