wikipedia,はてなキーワードを形態素解析ツールの辞書に追加する
■ mecab辞書作成
以下、AWS EC2(Amazon Linux)での作業
○ インストール、設定
sudo yum install php-common php-devel php-cli php-pear
sudo yum install pcre-devel
sudo yum install php-mbstring
git clone https://github.com/miraoto/php.mod-mecab-dic.git
cd php.mod-mecab-dic
mkdir mkdir mod-mecab-dic/tmp
cd mod-mecab-dic/tmp
wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz
php ./mod-mecab-dic/bootstrap.php wikipedia
cd mod-mecab-dic/tmp
mv mecab-dic.dic mecab-wikipedia-dic.dic
cd mod-mecab-dic/tmp
wget http://d.hatena.ne.jp/images/keyword/keywordlist_furigana.csv
cd ../..
php ./mod-mecab-dic/bootstrap.php hatena
cd mod-mecab-dic/tmp
mv mecab-dic.dic mecab-hatena-dic.dic
sudo cp *.dic /usr/local/lib/mecab/dic
cd /usr/local/etc/mecab
sudo cp -p mecabrc mecabrc.orig
sudo vi mecabrc
$ diff mecabrc.orig mecabrc
8a9
> userdic = /usr/local/lib/mecab/dic/mecab-wikipedia-dic.dic,/usr/local/lib/mecab/dic/mecab-hatena-dic.dic
どちらかの辞書しか使わない場合は、使う辞書の記述を残して、もう一方を削除。
複数使う場合は、”.”で区切って記述。
○ 辞書が使えているかの確認
mecab-wikipedia-dic.dicのみを有効にした場合
[ec2-user@ip-10-0-0-44 etc]$ echo Androidアプリケーション開発 | mecab
Android 名詞,固有名詞,*,*,*,*,Android,*,*,wikipedia_word
アプリケーション 名詞,一般,*,*,*,*,アプリケーション,アプリケーション,アプリケーション
開発 名詞,サ変接続,*,*,*,*,開発,カイハツ,カイハツ
EOS
mecab-hatena-dic.dicのみを有効にした場合
[ec2-user@ip-10-0-0-44 ~]$ echo 天下一武道会に出場 | mecab
天下一武道会 名詞,固有名詞,*,*,*,*,てんかいちぶどうかい,テンカイチブドウカイ,テンカイチブドウカイ,hatena_word
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
出場 名詞,サ変接続,*,*,*,*,出場,シュツジョウ,シュツジョー
EOS