Cabocha
- 係り受け解析器
- nlp100で使うのでローカルに入れた.
環境
- Ubuntu 14.04
- MeCab 0.996
- CRF++ 0.58
- Cabocha 0.69
(よくない)前提
- MeCabはnlp100の前段階で入れていた
- IPAのutf-8の辞書を(参考:MeCab公式)入れていた
- コマンドオプションで
mecab -d /var/lib/mecab/dic/ipadic-utf8
として(.zshrcでaliasかけて)済ませていた.
インストール
- CRF++のインストール
$ tar xvfz CRF++-0.58.tar.gz
$ cd CRF++-0.58
$ ./configure
$ make
$ sudo make install
- Cabochaのインストール
$ ./configure --with-charset=UTF8 --enable-utf8-only
$ make
$ sudo make install
- エラった
$ cabocha
morph.cpp(187) [charset() == decode_charset(dinfo->charset)] Incompatible charset: MeCab charset is euc-jp, Your charset is UTF8
- 最初,Cabochaがeuc-jpになっているのかと思ってそっち方面で調べていた.
- よく見たらMeCabやん!ということで,
- .zshrcでの暫定措置をやめる
alias mecab='mecab -d /var/lib/mecab/dic/ipadic-utf8'
- /etc/mecabrcを編集
dicdir = /var/lib/mecab/dic/ipadic-utf8
- .cabocharcを作成
(参考)
mecabrc = /etc/mecabrc
- .zshrcでの暫定措置をやめる
これで無事に,MeCab,Cabocha共に動くようになった.
教訓
エラーは流し読みしない