LoginSignup
9

More than 5 years have passed since last update.

UbuntuでmecabにComeJisyo(医療用語辞書)を追加する(コマンドのみ)

Posted at

mecab? ComeJisyo?

  • mecabとは、日本語を形態素解析してくれるソフトウェアである。
  • ComeJisyoとは、形態素解析する際に使用する医療用語に特化した辞書である。mecabから利用可能。

この記事を書いた理由

  • ComeJisyoがWindows前提なのでLinuxに取り込みずらいから
  • 全てコマンドで解決したかったが、その記事は(調べた限り)無かったから

方法

# download
wget --trust-server-names "https://ja.osdn.net/frs/redir.php?m=ymu&f=comedic%2F59898%2FComeJisyoV5-1.zip"

# unzip
unzip ComeJisyoV5-1.zip -d Comejisyo

# utf8
iconv -c -s -f SHIFT_JIS -t UTF-8 Comejisyo/ComeJisyoV5-1.csv > Comejisyo/ComeJisyoV5-1_utf8.csv 

# 不要な行を削除
 head -n -2 Comejisyo/ComeJisyoV5-1_utf8.csv > Comejisyo/ComeJisyoV5-1_utf8_del.csv

# Dictionary作成
/usr/lib/mecab/mecab-dict-index -d /usr/lib/mecab/dic/mecab-ipadic-neologd/ -u comejisyo.dic -f utf-8 -t utf-8 Comejisyo/ComeJisyoV5-1_utf8_del.csv

# 辞書配置(任意の場所)
mkdir /usr/lib/mecab/dic/comejisyo
mv comejisyo.dic /usr/lib/mecab/dic/comejisyo/

# mecabtc
vim /etc/mecabrc

: 下記を追加
userdic = /usr/lib/mecab/dic/comejisyo/comejisyo.dic

結論

# comejisyo http://www.anlp.jp/proceedings/annual_meeting/2012/pdf_dir/C3-7.pdf

# 辞書投入前
echo "脂肪族アミン" | mecab
脂肪    名詞,一般,*,*,*,*,脂肪,シボウ,シボー
族      名詞,接尾,一般,*,*,*,族,ゾク,ゾク
アミン  名詞,固有名詞,一般,*,*,*,amin,アミン,アミン
EOS

# 辞書投入後
echo "脂肪族アミン" | mecab
脂肪族  名詞,一般,*,*,*,*,脂肪族,シボウゾク,シボーゾク,::教育::67467:
アミン  名詞,一般,*,*,*,*,アミン,アミン,アミン,:amine:栄:2:47163:
EOS

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
9