LoginSignup
10
10

More than 5 years have passed since last update.

形態素解析ツールの辞書を追加する

Posted at

wikipedia,はてなキーワードを形態素解析ツールの辞書に追加する

■ mecab辞書作成

以下、AWS EC2(Amazon Linux)での作業

○ インストール、設定

sudo yum install php-common php-devel php-cli php-pear
sudo yum install pcre-devel
sudo yum install php-mbstring
git clone https://github.com/miraoto/php.mod-mecab-dic.git
cd php.mod-mecab-dic

mkdir mkdir mod-mecab-dic/tmp
cd mod-mecab-dic/tmp
wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz
php ./mod-mecab-dic/bootstrap.php wikipedia
cd mod-mecab-dic/tmp
mv mecab-dic.dic mecab-wikipedia-dic.dic

cd mod-mecab-dic/tmp
wget http://d.hatena.ne.jp/images/keyword/keywordlist_furigana.csv
cd ../..
php ./mod-mecab-dic/bootstrap.php hatena
cd mod-mecab-dic/tmp
mv mecab-dic.dic mecab-hatena-dic.dic

sudo cp *.dic /usr/local/lib/mecab/dic

cd /usr/local/etc/mecab
sudo cp -p mecabrc mecabrc.orig
sudo vi mecabrc

$ diff mecabrc.orig mecabrc
8a9
> userdic = /usr/local/lib/mecab/dic/mecab-wikipedia-dic.dic,/usr/local/lib/mecab/dic/mecab-hatena-dic.dic

どちらかの辞書しか使わない場合は、使う辞書の記述を残して、もう一方を削除。
複数使う場合は、”.”で区切って記述。

○ 辞書が使えているかの確認

mecab-wikipedia-dic.dicのみを有効にした場合

[ec2-user@ip-10-0-0-44 etc]$ echo Androidアプリケーション開発 | mecab
Android     名詞,固有名詞,*,*,*,*,Android,*,*,wikipedia_word
アプリケーション     名詞,一般,*,*,*,*,アプリケーション,アプリケーション,アプリケーション
開発     名詞,サ変接続,*,*,*,*,開発,カイハツ,カイハツ
EOS

mecab-hatena-dic.dicのみを有効にした場合

[ec2-user@ip-10-0-0-44 ~]$ echo 天下一武道会に出場 | mecab
天下一武道会     名詞,固有名詞,*,*,*,*,てんかいちぶどうかい,テンカイチブドウカイ,テンカイチブドウカイ,hatena_word
に     助詞,格助詞,一般,*,*,*,に,ニ,ニ
出場     名詞,サ変接続,*,*,*,*,出場,シュツジョウ,シュツジョー
EOS

○ ニコニコ大百科

■ chasen版辞書作成

10
10
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
10
10