この記事は、zariganitoshさんの記事を基に、実際に私が試した内容をまとめただけのものです。
MeCabとは
オープンソースの日本語の形態素解析エンジンです。
日本語の文章を分析して、名詞を取り出してくれたりするすごいやつです。
MeCabとsaykanaを組み合わせて使えば、漢字混じりの日本語を喋らせる事が出来るようになります。
さらに、Node.jsでTwitterライムラインを監視し、更新された内容をMeCabで解析→sayknaで出力させて、日本語のツイートを喋らせる事もできます。
前提条件
- Mac : 10.8.2
- MeCab : 0.996
- mecab-0.996.tar.gz
- IPA 辞書 : 2.7.0
- mecab-ipadic-2.7.0-20070801.tar.gz
ダウンロード
MeCabとIPA辞書を上のリンクからダウンロードして、適当なディレクトリにおきます。
以降は~/Downloads
にダウンロードした前提で書きます。
インストール
MeCab のインストール
まずは、MeCabをインストールします。
cd ~/Downloads
tar zxfv mecab-0.996.tar.gz
cd mecab-0.996
./configure
make
make check
チェックで何もエラー、警告が出ていなければインストールします。
私の環境では特にエラーはありませんでした。
sudo make install
IPA辞書のインストール
次に、IPA辞書をインストールします。
IPA辞書が無いと、MeCabを実行したときに「辞書が無いです」エラーが発生します。
cd ~/Downloads
tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz
cd mecab-ipadic-2.7.0-20070801
./configure --with-charset=utf8
make
sudo make install
実はここで嵌ったのが、インストールは出来たけど、MeCabでちゃんと解析できなかったという現象です。
しかし、参考にしたサイトさんの追記で、文字コードを指定してやれば良いということが分かり、無事動作させることが出来ました。
IPA辞書のデフォルトの文字コードがEUCだったらしいです。
これでインストールは完了です。
動作確認
形態素解析でお決まりの文句が、ちゃんと解析されるか試してみましょう。
mecab
すもももももももものうち
以下のように出力されるはずです。
すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS
最後の”うち”が名詞になっているのはご愛嬌といった所でしょうか(^^;)
コマンドの詳細は、mecab -h
か、MeCab (和布蕪) ※公式?を参照してください。
アンインストール
エラーが発生したり、もう使わないよーとなった時はアンインストールします。
先にIPA辞書をアンインストール。
cd ~/Downloads
cd mecab-ipadic-2.7.0-20070801
sudo make uninstall
次に、MeCabをアンインストール。
cd ~/Downloads
cd mecab-0.996
sudo make uninstall
再度ビルドする
IPA辞書の./configure
にオプションを指定しなくて失敗しました。
そこで再度ビルドしようとした時に、クリーンしないとビルドに失敗したので、一応手順をのせます。
cd ~/Downloads
cd mecab-ipadic-2.7.0-20070801
make clean
クリーンしたあとで、インストールの./configure .....
以降の手順を踏みます。
参考にしたサイト
おまけ(saykana関連)
おまけ(Twitterボット関連)
以上