概要
日本語の形態素解析ツールMeCabを統計処理用言語Rから使う。
RからMeCabを使う事により、
機械学習用パッケージとの連携が期待できる。
Pixiv小説の本文をAPI経由で取得し、単語別の出現数を調べる。
事前準備
コード
trymecab.r
library(RCurl)
library(RMeCab)
story <- getURL("http://spapi.pixiv.net/iphone/novel_text.php?id=<Pixiv小説ID>")
txt <- tempfile("txt")
write(story, file = txt)
frq <- RMeCabFreq(txt)
frq.noun <- frq[frq$Info1=="名詞",]
frq.noun <- frq.noun[order(-frq.noun$Freq),]
frq.noun[1:10,]
出力結果(サンプル)
Term Info1 Info2 Freq
846 姫 名詞 一般 150
1190 こと 名詞 非自立 80
1195 の 名詞 非自立 65
725 こ 名詞 一般 60
1076 絵里 名詞 固有名詞 30
1200 よう 名詞 非自立 25
1148 ちゃん 名詞 接尾 20
975 言葉 名詞 一般 15
1023 それ 名詞 代名詞 15
1029 何 名詞 代名詞 10
感想
辞書を鍛える必要性を感じる。