MacOS Mavericks で、 MeCab に単語を登録する方法
流れとしては、
1. 単語情報を記載したCSVファイルを作成
2. そのCSVファイルからユーザー辞書ファイルを作成
3. MeCabを実行(ユーザー辞書ファイルが使われる)
というストーリー。
以下の2つを任意のファイルパスで決めておく。
- 単語情報を記載したCSVファイル
- /path/to/word.csv
- MeCabが使うユーザー辞書ファイル
- /path/to/mecab.dic
MeCabがユーザー辞書ファイルを参照するように設定
# MeCabの設定ファイルのテンプレートをホームディレクトリに用意
$ cp -pr /usr/local/etc/mecabrc ~/.mecabrc
# ~/.mecabrc に、以下のように userdic エントリーを追加
$ cat ~/.mecabrc
;
; Configuration file of MeCab
;
; $Id: mecabrc.in,v 1.3 2006/05/29 15:36:08 taku-ku Exp $;
;
dicdir = /usr/local/lib/mecab/dic/ipadic
; userdic = /home/foo/bar/user.dic
; output-format-type = wakati
; input-buffer-size = 8192
; node-format = %m\n
; bos-format = %S\n
; eos-format = EOS\n
userdic = /path/to/mecab.dic
登録する単語のCSVファイルを作成
/path/to/word.csv を、以下のようなフォーマットで作成。文字コードは UTF-8 にする。
表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音
活用しない一般名詞であれば、以下のように書ける。
Wi-Fi,,,1000,名詞,一般,*,*,*,*,WI-FI,Wi-Fi,ワイファイ
辞書の作成
以下のコマンドを実行する
$ /usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u /path/to/mecab.dic -f UTF-8 -t UTF-8 /path/to/word.csv
辞書が機能するかどうかを確認
1単語になっていればOK.
$ echo "Wi-Fiが繋がらない" | mecab
Wi-Fi 名詞,一般,*,*,*,*,WI-FI, Wi-Fi, ワイファイ
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
繋がら 動詞,自立,*,*,五段・ラ行,未然形,繋がる,ツナガラ,ツナガラ
ない 助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ