python3で追加して見た
ネットで参考サイトがたくさんあるんが、一応python3でやって見た。
##人名辞書
ここから手にいた。
txt格式で あい "亜衣":姓
のようにあって、そこでmecab向けのcsv格式変換する。
表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音
のようにしたい。
直接excelで区切り文字を指定して、csvファイルを作るは一つ方法。
そして上のように編集する。
情報基礎の知識だね
pythonでやれば
\#!/usr/bin/env python
\# -*- coding: utf-8 -*-
import sys
import re
def Dic():
dic_file = open('sei.txt','r')
lines = dic_file.readlines()
dic_file.close()
for line in lines:
sword = line.split("\t")
kana = sword[0].strip()
word = sword[1].strip()
cost = str(max(-36000,8000-len(word)**500)) #コスト要検討
print(word+",,,"+cost+",名詞,固有名詞,人名,姓,*,*,"+word+","+kana+","+kana+"追加")
if __name__ == '__main__':
Dic()
###左右の文脈ID
左右の文脈IDがmecabのバージョンによって違うらしい、そして
空にしておくと mecab-dict-index が自動的に ID を付与します
と書いているので、空白した
###コスト
http://www.mwsoft.jp/programming/munou/mecab_hatena.html
からcost = -400 * word.split(//u).size ** 1.5
という計算方法あるが、負の数がばかりでちゃんと出るのかが心配、公式サイト見れば、
コストの自動推定機能
がある。
また
-a オプションを用いて, コスト値や文脈IDが空のCSVファイルに対し, 自動的にそれらを埋めて新しいCSVを作成することができます
両方ともやってみる
追加先
システム辞書に追加