LoginSignup
3
5

More than 5 years have passed since last update.

mecabに人名辞書追加 

Last updated at Posted at 2017-05-11

python3で追加して見た

ネットで参考サイトがたくさんあるんが、一応python3でやって見た。

人名辞書

フリーのIME・ATOKユーザ辞書リンク集

ここから手にいた。
txt格式で あい "亜衣":姓のようにあって、そこでmecab向けのcsv格式変換する。
表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音 のようにしたい。

直接excelで区切り文字を指定して、csvファイルを作るは一つ方法。

スクリーンショット 2017-05-11 16.02.58.png

そして上のように編集する。
情報基礎の知識だね

pythonでやれば


\#!/usr/bin/env python
\# -*- coding: utf-8 -*-

import sys
import re

def Dic():
    dic_file = open('sei.txt','r')
    lines = dic_file.readlines()
    dic_file.close()

    for line in lines: 
        sword = line.split("\t")
        kana = sword[0].strip()
        word = sword[1].strip()
        cost = str(max(-36000,8000-len(word)**500)) #コスト要検討
        print(word+",,,"+cost+",名詞,固有名詞,人名,姓,*,*,"+word+","+kana+","+kana+"追加")


if __name__ == '__main__':
    Dic()

左右の文脈ID

左右の文脈IDがmecabのバージョンによって違うらしい、そして

空にしておくと mecab-dict-index が自動的に ID を付与します
と書いているので、空白した

コスト

http://www.mwsoft.jp/programming/munou/mecab_hatena.html
から cost = -400 * word.split(//u).size ** 1.5

という計算方法あるが、負の数がばかりでちゃんと出るのかが心配、公式サイト見れば、

コストの自動推定機能

がある。
また 

-a オプションを用いて, コスト値や文脈IDが空のCSVファイルに対し, 自動的にそれらを埋めて新しいCSVを作成することができます

両方ともやってみる

追加先

単語の追加方法

システム辞書に追加

3
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
5