最近話題のMeCabの辞書mecab-ipadic-NEologdを使ってみたいと思いユーザー辞書に追加したので、その方法をまとめます。
mecab-ipadic-NEologdの作者の方がSlideShareでインストール方法を紹介していますが、システム辞書に入るのかユーザー辞書に入るのかを見るにはシェルの中身を読むのが面倒だったので手動でユーザー辞書に追加します。
http://www.slideshare.net/overlast/mecab-ipadicneologdtokyordf-46497035
このブログを参考にしました。(このブログではシステム辞書に登録)
https://blog.apar.jp/linux/2796/
あとは、MeCab公式のやり方を参考にしました。
http://taku910.github.io/mecab/dic.html
実際の手順
まずはgitからmecab-ipadic-NEologdをダウンロードする
git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
辞書データとなるCSVを解凍する。
xz -dkv mecab-ipadic-neologd/seed/mecab-user-dict-seed.*.csv.xz
解凍したCSVをMeCabの辞書に変換する。
/usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u mecab-user-dict-seed.20150810.dic -f utf-8 -t utf-8 mecab-user-dict-seed.20150810.csv
最後にMeCabの設定ファイルに作成したユーザー辞書を追加する。
emacs /usr/local/etc/mecabrc
userdic = /dicファイルのパス/mecab-user-dict-seed.20150810.dic
あと、neologdと関係ないですが、MeCabでは初期設定では半角記号がなぜか、名詞,サ変接続になるので修正する。未知語用のファイルを編集すればできる。
mecab-ipadic-2.7.0-20070801のunk.defの
SYMBOL,1283,1283,17585,名詞,サ変接続,*,*,*,*,*
を
SYMBOL,1283,1283,17585,記号,一般,*,*,*,*,*
に変更してmecab-dict-indexを実行して辞書を再作成する。
これで終了。固有名詞も結構登録されていて良さそうですね。
###20160206追記
MeCabのTips
input-buffer overflow. The line is split. use -b #SIZE option.
というエラーがでるときがあるが、本当にオーバーフローしてるわけではなく、入力テキストの最後に改行がないと出るエラーみたい。