1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Windows + UniDic + ユーザー辞書

Last updated at Posted at 2021-12-07

Windows に MeCab のインストール

ここからダウンロードしてインストールします.

話ことばの辞書をUniDicの公式サイトからダウンロードする.

Here

Windows 10 にMeCab python のinstall

メンテナンスがしっかりしているので

pip install mecab-python3

#UniDicを使用する.

展開したフォルダー名をunidicに変更して!
C:\Program Files\MeCab\dic\に移動する(管理者権限が必要...。)

mecabrcを以下のように変更する

;
; Configuration file of MeCab
;
; $Id: mecabrc.in,v 1.3 2006/05/29 15:36:08 taku-ku Exp $;
;
dicdir =  $(rcpath)\..\dic\unidic

userdic = /home/foo/bar/user.dic

; output-format-type = wakati
; input-buffer-size = 8192

; node-format = %m\n
; bos-format = %S\n
; eos-format = EOS\n

dicrcの変更

mecabのフォーマット
辞書素性

No. 素性 説明
0 品詞階層 0 (大分類)
1 品詞階層 1 (中分類)
2 品詞階層 2 (小分類)
3 品詞階層 3 (再分類)
4 活用型 eg. 五段・カ行促音便
5 活用形 eg. 連用タ接続
6 原形 辞書の見出し形式 eg. 行っ -> 行く.
7 読み カタカナで読みが与えられます eg. コウエン.
8 発音 読みと同様カタカナで与えられます eg. コーエン.

ここを参考に

; List of features
; f[0]:  pos1
; f[1]:  pos2
; f[2]:  pos3
; f[3]:  pos4
; f[4]:  cType
; f[5]:  cForm
; f[6]:  lForm
; f[7]:  lemma
; f[8]:  orth
; f[9]:  pron
; f[10]: orthBase
; f[11]: pronBase
; f[12]: goshu
; f[13]: iType
; f[14]: iForm
; f[15]: fType
; f[16]: fForm
; f[17]: iConType
; f[18]: fConType
; f[19]: type
; f[20]: kana
; f[21]: kanaBase
; f[22]: form
; f[23]: formBase
; f[24]: aType
; f[25]: aConType
; f[26]: aModType
; f[27]: lid
; f[28]: lemma_id

cost-factor = 700
bos-feature = BOS/EOS,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*
eval-size = 10
unk-eval-size = 4
config-charset = utf8

output-format-type = unidic22

;node-format-unidic22 = %m\t%f[0],%f[1],%f[2],%f[3],%f[4],%f[5],%f[6],%f[7],%f[8],%f[9],%f[10],%f[11],%f[12],"%f[13]","%f[14]","%f[15]","%f[16]","%f[17]","%f[18]",%f[19],%f[20],%f[21],%f[22],%f[23],"%f[24]","%f[25]","%f[26]",%f[27],%f[28]\n
node-format-unidic22 = %m\t%f[0],%f[1],%f[2],%f[3],%f[4],%f[5],%f[6],%f[7],%f[8],%f[9],%f[10],%f[11]\n
;unk-format-unidic22 = %m\t%f[0],%f[1],%f[2],%f[3],%f[4],%f[5]\n
unk-format-unidic22 = %m\t%f[0],%f[1],%f[2],%f[3],%f[4],%f[5],%m,%m,%m,%m,%m,%m\n
bos-format-unidic22 =
eos-format-unidic22 = EOS\n

node-format-verbose = surface:%m\tpos1:%f[0]\tpos2:%f[1]\tpos3:%f[2]\tpos4:%f[3]\tcType:%f[4]\tcForm:%f[5]\tlForm:%f[6]\tlemma:%f[7]\torth:%f[8]\tpron:%f[9]\torthBase:%f[10]\tpronBase:%f[11]\tgoshu:%f[12]\tiType:%f[13]\tiForm:%f[14]\tfType:%f[15]\tfForm:%f[16]\tiConType:%f[17]\tfConType:%f[18]\tlType:%f[19]\tkana:%f[20]\tkanaBase:%f[21]\tform:%f[22]\tformBase:%f[23]\taType:%f[24]\taConType:%f[25]\taModType:%f[26]\tlid:%f[27]\tlemma_id:%f[28]\n
unk-format-verbose = surface:%m\tpos1:%f[0]\tpos2:%f[1]\tpos3:%f[2]\tpos4:%f[3]\tcType:%f[4]\tcForm:%f[5]\n
bos-format-verbose =
eos-format-verbose = EOS\n

node-format-chamame = \t%m\t%f[9]\t%f[6]\t%f[7]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\t%f[23]\t%f[12]\n\n
unk-format-chamame = \t%m\t\t\t%m\t未知語\t\t\t\t\n
bos-format-chamame = B
eos-format-chamame =

#ユーザー辞書の作成

わたし,10366,1748,2905,代名詞,*,*,*,*,*,ワタシ,私,わたし,ワタシ,わたし,ワタシ,和,*,*,*,*,*,*,体,ワタシ,ワタシ,ワタシ,ワタシ,0,*,*,11346152578490880,41277
あなた,11798,7029,-1699,代名詞,*,*,*,*,*,アナタ,貴方,あなた,アナタ,あなた,アナタ,和,*,*,*,*,*,*,体,アナタ,アナタ,アナタ,アナタ,2,*,*,245749472436736,894

みたいなフォーマットでcsv作成.

ここを参考にして,バッチファイルを作成する.

mecab.bat
echo on

cd "C:\Program Files\MeCab\bin"
mecab-dict-index.exe -d "C:\Program Files\MeCab\dic\unidic" -u "C:\Program Files\MeCab\userdic" -f utf8 -t utf8 "C:\path\to\your.csv"

pause

mecabrcのパスを

userdic = /home/foo/bar/user.dic から C:\Program Files\MeCab\userdic に変更し,バッチファイルを管理者権限で実行!

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?