13
16

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

MeCabをUTF-8でインストールしたい。

Last updated at Posted at 2016-12-09

MeCab

mecabといえば、10年前から公開されている日本語の形態素解析エンジン。研究用途やWebサービスのNGワード抽出など、今でもバリバリ活躍しています。

インストールしてみる

こちらを参考に、インストールを進めていきます。

MacやLinuxなどで使いたいときは、./configureのときに--with-charset-=utf8するのがミソみたいです。

$ tar zxfv mecab-X.X.tar.gz
$ cd mecab-X.X
$ ./configure --with-charset=utf8
$ make
$ make check
$ sudo make install
  • ここまでは良さそう。

辞書をインストール

MeCab本体と同様に、辞書もインストールします。ここでもやっぱり./configure --with-charset=utf8がミソなんですが…。

$ tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
$ cd mecab-ipadic-2.7.0-XXXX
$ ./configure --with-charset=utf8
$ make
$ sudo make install

ところがこれがうまくいかないのだ。見事に文字化けしている。

$ mecab
今日もいい天気ですね
?	̾??,????,*,*,*,*,?,???????,???????
?日もいい?	????,????,*,*,*,*,*
??	̾??,????,*,*,*,*,*
?	̾??,????,*,*,*,*,*
?ですね	????,????,*,*,*,*,*
EOS

解決方法

似たような問題にあたっている方を発見。こちらを参考に、各種ファイルや設定を無理やりUTF-8にしていきます。

$ tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
$ cd mecab-ipadic-2.7.0-XXXX
$ nkf -w --overwrite *.csv
$ nkf -w --overwrite *.def

dicrcを編集

- config-charset = EUC-JP
+ config-charset = UTF-8

インストール

$ ./configure --with-charset=utf8
$ make
$ sudo make install

これでうまくいくはずです。

$ mecab
おはようございます
おはよう	感動詞,*,*,*,*,*,おはよう,オハヨウ,オハヨー
ござい	助動詞,*,*,*,五段・ラ行特殊,連用形,ござる,ゴザイ,ゴザイ
ます	助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
EOS
13
16
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
13
16

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?