Edited at

MaCabのユーザー辞書にmecab-ipadic-NEologdを手動で追加する

More than 3 years have passed since last update.

最近話題のMeCabの辞書mecab-ipadic-NEologdを使ってみたいと思いユーザー辞書に追加したので、その方法をまとめます。

mecab-ipadic-NEologdの作者の方がSlideShareでインストール方法を紹介していますが、システム辞書に入るのかユーザー辞書に入るのかを見るにはシェルの中身を読むのが面倒だったので手動でユーザー辞書に追加します。

http://www.slideshare.net/overlast/mecab-ipadicneologdtokyordf-46497035

このブログを参考にしました。(このブログではシステム辞書に登録)

https://blog.apar.jp/linux/2796/

あとは、MeCab公式のやり方を参考にしました。

http://taku910.github.io/mecab/dic.html

実際の手順

まずはgitからmecab-ipadic-NEologdをダウンロードする

git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git

辞書データとなるCSVを解凍する。

xz -dkv mecab-ipadic-neologd/seed/mecab-user-dict-seed.*.csv.xz

解凍したCSVをMeCabの辞書に変換する。

/usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u mecab-user-dict-seed.20150810.dic -f utf-8 -t utf-8 mecab-user-dict-seed.20150810.csv

最後にMeCabの設定ファイルに作成したユーザー辞書を追加する。

emacs /usr/local/etc/mecabrc

userdic = /dicファイルのパス/mecab-user-dict-seed.20150810.dic

あと、neologdと関係ないですが、MeCabでは初期設定では半角記号がなぜか、名詞,サ変接続になるので修正する。未知語用のファイルを編集すればできる。

mecab-ipadic-2.7.0-20070801のunk.defの

SYMBOL,1283,1283,17585,名詞,サ変接続,*,*,*,*,*



SYMBOL,1283,1283,17585,記号,一般,*,*,*,*,*

に変更してmecab-dict-indexを実行して辞書を再作成する。

これで終了。固有名詞も結構登録されていて良さそうですね。


20160206追記

MeCabのTips

input-buffer overflow. The line is split. use -b #SIZE option.というエラーがでるときがあるが、本当にオーバーフローしてるわけではなく、入力テキストの最後に改行がないと出るエラーみたい。