LoginSignup
9
9

More than 5 years have passed since last update.

Rで自然言語処理。Pixiv小説で単語別の出現数を調べる。

Last updated at Posted at 2014-04-17

概要

日本語の形態素解析ツールMeCabを統計処理用言語Rから使う。
RからMeCabを使う事により、
機械学習用パッケージとの連携が期待できる。
Pixiv小説の本文をAPI経由で取得し、単語別の出現数を調べる。

事前準備

RCurlのインストール
RMeCabのインストール

コード

trymecab.r
library(RCurl)
library(RMeCab)

story <- getURL("http://spapi.pixiv.net/iphone/novel_text.php?id=<Pixiv小説ID>")
txt <- tempfile("txt")
write(story, file = txt)
frq <- RMeCabFreq(txt)
frq.noun <- frq[frq$Info1=="名詞",]
frq.noun <- frq.noun[order(-frq.noun$Freq),]
frq.noun[1:10,]

出力結果(サンプル)

       Term Info1        Info2 Freq
846      姫  名詞         一般  150
1190   こと  名詞       非自立   80
1195     の  名詞       非自立   65
725      こ  名詞         一般   60
1076   絵里  名詞     固有名詞   30
1200   よう  名詞       非自立   25
1148 ちゃん  名詞         接尾   20
975    言葉  名詞         一般   15
1023   それ  名詞       代名詞   15
1029     何  名詞       代名詞   10

感想

辞書を鍛える必要性を感じる。

9
9
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
9
9