自分用メモ。
環境
- MeCab 0.996 と UniDic(ver. 2.1.2) をインストールした。
- MeCabの設定ファイルを編集して、UniDicを使えるようにした。
参考 👉 MeCabとUNIDICをUbuntu 14.04にインストール - Yura YuLife - MeCabの設定ファイルを編集して、語種を表示できるようにした。参考 👉 MeCab + Unidic を使って単語の語種(和語、漢語)を表示する - Qiita
ゴール
ユーザー辞書を作って解析に使えるようにする。
# 現状
$ mecab
タルスキー
タル タル タル タル-外国 名詞-固有名詞-人名-一般 固
スキー スキー スキー スキー-ski 名詞-普通名詞-一般 外
EOS
やったこと
辞書のCSVファイル
/Users/Pii/UserDic/uniuserdic.csv
を作った。
# uniuserdic.csv
タルスキー,,,0,名詞,固有名詞,人名,一般,*,*,タルスキー,タルスキー,タルスキー,タルスキー,タルスキー,タルスキー,固,*,*,*
バナッハ,,,0,名詞,固有名詞,人名,一般,*,*,バナッハ,バナッハ,バナッハ,バナッハ,バナッハ,バナッハ,固,*,*,*
コンパイル
/Users/Pii/UserDic/
の中で作業
$ /usr/local/libexec/mecab/mecab-dict-index -d /Users/Pii/unidic-mecab-2.1.2_src/ -u /Users/Pii/UserDic/uniuserdic.dic -f utf-8 -t utf-8 uniuserdic.csv
実はこれ、けっこう手こずった。
-d
の後に指定するディレクトリは、辞書コンパイル用のあれこれが入っているディレクトリなんだけど、これがどこにあるのか分からなかった。
UniDic は IPAdic とは辞書の書き方が違うから、UniDic 用の dicrc を指定してやらなければならないんだけど、先輩方の解説は IPADic 用のものが圧倒的に多い。
mecabrc にユーザー辞書のパスを追加
/usr/local/etc/mecabrc
に一行追加する。
userdic = /Users/Pii/UserDic/uniuserdic.dic
参考にしたサイト
- MeCab で UniDic 辞書を使ってみる / 桃缶食べたい。 - chocolablog
- MeCab: 単語の追加方法
- mecabの解析辞書にUniDicを使い始めた - 雲雀は高く空を舞い - ひよこの会
- mecab に単語を追加するユーザー辞書を追加する - 一人ぼっちのライフハック生活
- mecabにオリジナル辞書をシステム辞書として投入する - おぼえがき
結果
# 結果
$ mecab
バナッハ・タルスキーのパラドクス
バナッハ バナッハ バナッハ バナッハ 名詞-固有名詞-一般 固
・ ・ 補助記号-一般 記号
タルスキー タルスキー タルスキー タルスキー 名詞-固有名詞-一般 固
の ノ ノ の 助詞-格助詞 和
パラドクス パラドクス パラドックス パラドックス-paradox 名詞-普通名詞-一般 外
EOS
やったー!