More than 5 years have passed since last update.

MeCabでユーザ辞書を使用する

Posted at 2019-06-13

１．ユーザ辞書を作成する
（１）csvファイルを作って語を定義する

sample_userdic.csv

Ｇ２０,1288,1288,8461,名詞,固有名詞,一般,*,*,*,G20,ジートゥウェンティ,ジートゥウェンティ

（２）ディレクトリを作って配置する

$ sudo mkdir /usr/local/lib/mecab/dic/sample_userdic
$ sudo cp sample_userdic.csv /usr/local/lib/mecab/dic/sample_userdic

２．コンパイルする（この場合はシステム辞書に新語辞書を使用）

$ cd /usr/local/lib/mecab/dic/sample_userdic
$ sudo /usr/local/libexec/mecab/mecab-dict-index -d/usr/local/lib/mecab/dic/mecab-ipadic-neologd -u sample_userdic.dic -f utf-8 -t utf-8 sample_userdic.csv
reading sample_userdic.csv ... 1
emitting double-array: 100% |###########################################| 

done!
$ ls
sample_userdic.csv  sample_userdic.dic

３．確認する（この場合は引数として指定、mecabrcでも指定できる）
◇ コマンドから確認

$ mecab -d "/usr/lib/mecab/dic/mecab-ipadic-neologd/" -u "/usr/lib/mecab/dic/userdic/userdic.dic"
２０カ国・地域（Ｇ２０）
２	名詞,数,*,*,*,*,２,ニ,ニ
０	名詞,数,*,*,*,*,０,ゼロ,ゼロ
カ国	名詞,接尾,助数詞,*,*,*,カ国,カコク,カコク
・	記号,一般,*,*,*,*,・,・,・
地域	名詞,一般,*,*,*,*,地域,チイキ,チイキ
（	記号,括弧開,*,*,*,*,（,（,（
Ｇ２０	名詞,固有名詞,一般,*,*,*,G20,ジートゥエンティー,ジートゥエンティー
）	記号,括弧閉,*,*,*,*,）,）,）

◇ pythonから確認

sample.py

>>> import MeCab
>>> mecab = MeCab.Tagger('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd -u /usr/local/lib/mecab/dic/userdic/userdic.dic')
>>> strG20 = "２０カ国・地域（Ｇ２０）"
>>> line = mecab.parse(strG20)
>>> word = parsed.split('\n')
>>> word[6]
'Ｇ２０\t名詞,固有名詞,一般,*,*,*,G20,ジートゥエンティー,ジートゥエンティー'

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up