はじめに
本記事では、MeCabの辞書にオリジナルの語彙を追加し、新たなユーザ辞書を作成する方法を記述します。
- 対象のOSは、Windows 10とUbuntu18.04です
- 作成したユーザ辞書をPythonで利用する方法も記載しています
参考のように、参考になる記事はたくさんありますが、毎回調べている気がしたので自分の環境用に整理しました。
追加方法
Windows 10
※ C:\Program Files\MeCab\bin
へパスが通っている前提
コマンド
> mecab-dict-index -f utf-8 -t utf-8 -d <辞書のディレクトリ> -u <作成する辞書> <追加する語彙>
---
(実行例) > mecab-dict-index -f utf-8 -t utf-8 -d "C:\Program Files\MeCab\dic\ipadic" -u ipcdic_plus_keyakizaka.dic keyakizaka.csv
reading keyakizaka.csv ... 456
emitting double-array: 100% |###########################################|
done!
ubuntu 18.04
コマンド
$ /usr/lib/mecab/mecab-dict-index -f utf-8 -t utf-8 -d <辞書のディレクトリ> -u <作成する辞書> <追加する語彙>
---
(実行例) $ /usr/lib/mecab/mecab-dict-index -d /usr/share/mecab/dic/ipadic/ -f utf-8 -t utf-8 -u ipcdic_plus_keyakizaka.dic keyakizaka.csv
reading keyakizaka.csv ... 456
emitting double-array: 100% |###########################################|
done!
メモ
- <作成する辞書>は任意のファイル名
- <辞書のディレクトリ>の探し方
- windows: たぶん
C:\Program Files\MeCab\dic\ipadic
にある - ubuntu: 紹介しているサイトごとに結構違う?ので
find / -name "dicrc"
とかで探すと良い - <追加する語彙>の作り方
Pythonで辞書を読み込み
pythonでmecabパッケージをインストールしている状態で以下のように定義すれば、作成した辞書を使うことができます。
pythonスクリプト
import MeCab
mecab = MeCab.Tagger (r"-Ochasen -u ipcdic_plus_keyakizaka.dic") # ここで作成した辞書を読み込む