Windows に MeCab のインストール
ここからダウンロードしてインストールします.
話ことばの辞書をUniDicの公式サイトからダウンロードする.
Windows 10 にMeCab python のinstall
メンテナンスがしっかりしているので
pip install mecab-python3
#UniDicを使用する.
展開したフォルダー名をunidicに変更して!
C:\Program Files\MeCab\dic\に移動する(管理者権限が必要...。)
mecabrcを以下のように変更する
;
; Configuration file of MeCab
;
; $Id: mecabrc.in,v 1.3 2006/05/29 15:36:08 taku-ku Exp $;
;
dicdir = $(rcpath)\..\dic\unidic
userdic = /home/foo/bar/user.dic
; output-format-type = wakati
; input-buffer-size = 8192
; node-format = %m\n
; bos-format = %S\n
; eos-format = EOS\n
dicrcの変更
mecabのフォーマット
辞書素性
No. 素性 説明
0 品詞階層 0 (大分類)
1 品詞階層 1 (中分類)
2 品詞階層 2 (小分類)
3 品詞階層 3 (再分類)
4 活用型 eg. 五段・カ行促音便
5 活用形 eg. 連用タ接続
6 原形 辞書の見出し形式 eg. 行っ -> 行く.
7 読み カタカナで読みが与えられます eg. コウエン.
8 発音 読みと同様カタカナで与えられます eg. コーエン.
ここを参考に
; List of features
; f[0]: pos1
; f[1]: pos2
; f[2]: pos3
; f[3]: pos4
; f[4]: cType
; f[5]: cForm
; f[6]: lForm
; f[7]: lemma
; f[8]: orth
; f[9]: pron
; f[10]: orthBase
; f[11]: pronBase
; f[12]: goshu
; f[13]: iType
; f[14]: iForm
; f[15]: fType
; f[16]: fForm
; f[17]: iConType
; f[18]: fConType
; f[19]: type
; f[20]: kana
; f[21]: kanaBase
; f[22]: form
; f[23]: formBase
; f[24]: aType
; f[25]: aConType
; f[26]: aModType
; f[27]: lid
; f[28]: lemma_id
cost-factor = 700
bos-feature = BOS/EOS,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*
eval-size = 10
unk-eval-size = 4
config-charset = utf8
output-format-type = unidic22
;node-format-unidic22 = %m\t%f[0],%f[1],%f[2],%f[3],%f[4],%f[5],%f[6],%f[7],%f[8],%f[9],%f[10],%f[11],%f[12],"%f[13]","%f[14]","%f[15]","%f[16]","%f[17]","%f[18]",%f[19],%f[20],%f[21],%f[22],%f[23],"%f[24]","%f[25]","%f[26]",%f[27],%f[28]\n
node-format-unidic22 = %m\t%f[0],%f[1],%f[2],%f[3],%f[4],%f[5],%f[6],%f[7],%f[8],%f[9],%f[10],%f[11]\n
;unk-format-unidic22 = %m\t%f[0],%f[1],%f[2],%f[3],%f[4],%f[5]\n
unk-format-unidic22 = %m\t%f[0],%f[1],%f[2],%f[3],%f[4],%f[5],%m,%m,%m,%m,%m,%m\n
bos-format-unidic22 =
eos-format-unidic22 = EOS\n
node-format-verbose = surface:%m\tpos1:%f[0]\tpos2:%f[1]\tpos3:%f[2]\tpos4:%f[3]\tcType:%f[4]\tcForm:%f[5]\tlForm:%f[6]\tlemma:%f[7]\torth:%f[8]\tpron:%f[9]\torthBase:%f[10]\tpronBase:%f[11]\tgoshu:%f[12]\tiType:%f[13]\tiForm:%f[14]\tfType:%f[15]\tfForm:%f[16]\tiConType:%f[17]\tfConType:%f[18]\tlType:%f[19]\tkana:%f[20]\tkanaBase:%f[21]\tform:%f[22]\tformBase:%f[23]\taType:%f[24]\taConType:%f[25]\taModType:%f[26]\tlid:%f[27]\tlemma_id:%f[28]\n
unk-format-verbose = surface:%m\tpos1:%f[0]\tpos2:%f[1]\tpos3:%f[2]\tpos4:%f[3]\tcType:%f[4]\tcForm:%f[5]\n
bos-format-verbose =
eos-format-verbose = EOS\n
node-format-chamame = \t%m\t%f[9]\t%f[6]\t%f[7]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\t%f[23]\t%f[12]\n\n
unk-format-chamame = \t%m\t\t\t%m\t未知語\t\t\t\t\n
bos-format-chamame = B
eos-format-chamame =
#ユーザー辞書の作成
わたし,10366,1748,2905,代名詞,*,*,*,*,*,ワタシ,私,わたし,ワタシ,わたし,ワタシ,和,*,*,*,*,*,*,体,ワタシ,ワタシ,ワタシ,ワタシ,0,*,*,11346152578490880,41277
あなた,11798,7029,-1699,代名詞,*,*,*,*,*,アナタ,貴方,あなた,アナタ,あなた,アナタ,和,*,*,*,*,*,*,体,アナタ,アナタ,アナタ,アナタ,2,*,*,245749472436736,894
みたいなフォーマットでcsv作成.
ここを参考にして,バッチファイルを作成する.
mecab.bat
echo on
cd "C:\Program Files\MeCab\bin"
mecab-dict-index.exe -d "C:\Program Files\MeCab\dic\unidic" -u "C:\Program Files\MeCab\userdic" -f utf8 -t utf8 "C:\path\to\your.csv"
pause
mecabrcのパスを
userdic = /home/foo/bar/user.dic から C:\Program Files\MeCab\userdic に変更し,バッチファイルを管理者権限で実行!