前回までのお話
twitter APIで遊んでみる #1(環境作り)
twitter APIで遊んでみる #2(ユーザータイムラインの取得)
twitter APIで遊んでみる #3(検索結果の取得)
はじめに
twitterAPI
でいろいろなツイートを収集できるようになったので、収集したデータをもとに形態素解析
をしてみようと思います。形態素解析にはMeCab
という解析エンジンが有名らしいので使ってみます。
※今回の話にはtwitterAPIは全くでてきませんのであしからず…
##環境作り
前回までの環境作りは実施済みのうえで、以下を実施します。
# yumからMeCabをインストールできるようにするため,Groonga リポジトリを追加
sudo rpm -ivh http://packages.groonga.org/centos/groonga-release-1.1.0-1.noarch.rpm
# MeCabのインストールする.
sudo yum install mecab mecab-devel mecab-ipadic mecab-ipadic-utf8
これでMeCab
がコマンドラインから使えます。まだこの状態だとpythonからはMeCabを使用できませんが、それは次回実施することにします。
MeCabで遊んでみる
コマンドラインでmecab
と打つと入力待ちになるので、適当に文章を入力してみます。
root@localhost:~$ mecab
昨日はモスバーガーを食べたので、 今日はマックを食べたいですね。
昨日 名詞,副詞可能,*,*,*,*,昨日,キノウ,キノー
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
モスバーガー 名詞,一般,*,*,*,*,*
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
食べ 動詞,自立,*,*,一段,連用形,食べる,タベ,タベ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
マック 名詞,固有名詞,一般,*,*,*,マック,マック,マック
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
食べ 動詞,自立,*,*,一段,連用形,食べる,タベ,タベ
たい 助動詞,*,*,*,特殊・タイ,基本形,たい,タイ,タイ
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
ね 助詞,終助詞,*,*,*,*,ね,ネ,ネ
。 記号,句点,*,*,*,*,。,。,。
EOS
MeCabすげ~!
更に-Owakati
オプションをつけると、品詞などの情報が無く単に文が形態素で区切られた形で出力されます。これを分かち書き
と言うそうです。読み方はワカチガキでいいのかな?
root@localhost:twitter$ mecab -Owakati
昨日はモスバーガーを食べたので、 今日はマックを食べたいですね。
昨日 は モスバーガー を 食べ た ので 、 今日 は マック を 食べ たい です ね 。
終わりに
とりあえずMeCab
が使えるようになりました。次回はpython
からMeCab
を使ってみようと思います。