44
41

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

MaCabのユーザー辞書にmecab-ipadic-NEologdを手動で追加する

Last updated at Posted at 2015-08-13

最近話題のMeCabの辞書mecab-ipadic-NEologdを使ってみたいと思いユーザー辞書に追加したので、その方法をまとめます。
mecab-ipadic-NEologdの作者の方がSlideShareでインストール方法を紹介していますが、システム辞書に入るのかユーザー辞書に入るのかを見るにはシェルの中身を読むのが面倒だったので手動でユーザー辞書に追加します。
http://www.slideshare.net/overlast/mecab-ipadicneologdtokyordf-46497035

このブログを参考にしました。(このブログではシステム辞書に登録)
https://blog.apar.jp/linux/2796/
あとは、MeCab公式のやり方を参考にしました。
http://taku910.github.io/mecab/dic.html

実際の手順
まずはgitからmecab-ipadic-NEologdをダウンロードする
git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git

辞書データとなるCSVを解凍する。
xz -dkv mecab-ipadic-neologd/seed/mecab-user-dict-seed.*.csv.xz

解凍したCSVをMeCabの辞書に変換する。
/usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u mecab-user-dict-seed.20150810.dic -f utf-8 -t utf-8 mecab-user-dict-seed.20150810.csv

最後にMeCabの設定ファイルに作成したユーザー辞書を追加する。
emacs /usr/local/etc/mecabrc
userdic = /dicファイルのパス/mecab-user-dict-seed.20150810.dic

あと、neologdと関係ないですが、MeCabでは初期設定では半角記号がなぜか、名詞,サ変接続になるので修正する。未知語用のファイルを編集すればできる。
mecab-ipadic-2.7.0-20070801のunk.defの
SYMBOL,1283,1283,17585,名詞,サ変接続,*,*,*,*,*

SYMBOL,1283,1283,17585,記号,一般,*,*,*,*,*
に変更してmecab-dict-indexを実行して辞書を再作成する。

これで終了。固有名詞も結構登録されていて良さそうですね。

###20160206追記
MeCabのTips
input-buffer overflow. The line is split. use -b #SIZE option.というエラーがでるときがあるが、本当にオーバーフローしてるわけではなく、入力テキストの最後に改行がないと出るエラーみたい。

44
41
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
44
41

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?