Edited at

twitter APIで遊んでみる #4(形態素解析してみる(MeCabの環境作り))


前回までのお話

twitter APIで遊んでみる #1(環境作り)

twitter APIで遊んでみる #2(ユーザータイムラインの取得)

twitter APIで遊んでみる #3(検索結果の取得)


はじめに

twitterAPIでいろいろなツイートを収集できるようになったので、収集したデータをもとに形態素解析をしてみようと思います。形態素解析にはMeCabという解析エンジンが有名らしいので使ってみます。

※今回の話にはtwitterAPIは全くでてきませんのであしからず…


環境作り

前回までの環境作りは実施済みのうえで、以下を実施します。


# yumからMeCabをインストールできるようにするため,Groonga リポジトリを追加
sudo rpm -ivh http://packages.groonga.org/centos/groonga-release-1.1.0-1.noarch.rpm

# MeCabのインストールする.
sudo yum install mecab mecab-devel mecab-ipadic mecab-ipadic-utf8

これでMeCabがコマンドラインから使えます。まだこの状態だとpythonからはMeCabを使用できませんが、それは次回実施することにします。


MeCabで遊んでみる

コマンドラインでmecabと打つと入力待ちになるので、適当に文章を入力してみます。

root@localhost:~$ mecab

昨日はモスバーガーを食べたので、 今日はマックを食べたいですね。
昨日 名詞,副詞可能,*,*,*,*,昨日,キノウ,キノー
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
モスバーガー 名詞,一般,*,*,*,*,*
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
食べ 動詞,自立,*,*,一段,連用形,食べる,タベ,タベ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
マック 名詞,固有名詞,一般,*,*,*,マック,マック,マック
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
食べ 動詞,自立,*,*,一段,連用形,食べる,タベ,タベ
たい 助動詞,*,*,*,特殊・タイ,基本形,たい,タイ,タイ
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
ね 助詞,終助詞,*,*,*,*,ね,ネ,ネ
。 記号,句点,*,*,*,*,。,。,。
EOS

MeCabすげ~!

更に-Owakatiオプションをつけると、品詞などの情報が無く単に文が形態素で区切られた形で出力されます。これを分かち書きと言うそうです。読み方はワカチガキでいいのかな?

root@localhost:twitter$ mecab -Owakati

昨日はモスバーガーを食べたので、 今日はマックを食べたいですね。
昨日 は モスバーガー を 食べ た ので 、 今日 は マック を 食べ たい です ね 。


終わりに

とりあえずMeCabが使えるようになりました。次回はpythonからMeCabを使ってみようと思います。