LoginSignup
3
3

More than 5 years have passed since last update.

MeCabに単語を登録

Last updated at Posted at 2015-03-06

MacOS Mavericks で、 MeCab に単語を登録する方法

流れとしては、
1. 単語情報を記載したCSVファイルを作成
2. そのCSVファイルからユーザー辞書ファイルを作成
3. MeCabを実行(ユーザー辞書ファイルが使われる)
というストーリー。

以下の2つを任意のファイルパスで決めておく。

単語情報を記載したCSVファイル
/path/to/word.csv
MeCabが使うユーザー辞書ファイル
/path/to/mecab.dic

MeCabがユーザー辞書ファイルを参照するように設定

# MeCabの設定ファイルのテンプレートをホームディレクトリに用意
$ cp -pr /usr/local/etc/mecabrc ~/.mecabrc
# ~/.mecabrc に、以下のように userdic エントリーを追加
$ cat ~/.mecabrc
;
; Configuration file of MeCab
;
; $Id: mecabrc.in,v 1.3 2006/05/29 15:36:08 taku-ku Exp $;
;
dicdir =  /usr/local/lib/mecab/dic/ipadic

; userdic = /home/foo/bar/user.dic

; output-format-type = wakati
; input-buffer-size = 8192

; node-format = %m\n
; bos-format = %S\n
; eos-format = EOS\n

userdic = /path/to/mecab.dic

登録する単語のCSVファイルを作成

/path/to/word.csv を、以下のようなフォーマットで作成。文字コードは UTF-8 にする。

表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音

活用しない一般名詞であれば、以下のように書ける。

Wi-Fi,,,1000,名詞,一般,*,*,*,*,WI-FI,Wi-Fi,ワイファイ

辞書の作成

以下のコマンドを実行する

$  /usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u /path/to/mecab.dic -f UTF-8 -t UTF-8 /path/to/word.csv

辞書が機能するかどうかを確認

1単語になっていればOK.

$ echo "Wi-Fiが繋がらない" | mecab
Wi-Fi   名詞,一般,*,*,*,*,WI-FI, Wi-Fi, ワイファイ
が      助詞,格助詞,一般,*,*,*,が,ガ,ガ
繋がら  動詞,自立,*,*,五段・ラ行,未然形,繋がる,ツナガラ,ツナガラ
ない    助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ
3
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
3