More than 5 years have passed since last update.

NLTKによる大規模ツイートデータの感情分析

Last updated at 2015-12-20Posted at 2015-12-20

はじめに

今回はICWSM-14で提案されたVADERという感情分析手法を用いて，約1年間分の英語のツイートデータを解析してみました．VADERについてはNLTKにSentiment Analysisがやってきたという記事を参照しました．ありがとうございます．

VADER

VADERはPythonの自然言語処理パッケージのnltkに実装されています．
使ってみると．


In [1]: from nltk.sentiment.vader import SentimentIntensityAnalyzer

In [2]: analyzer = SentimentIntensityAnalyzer()

In [3]: analyzer.polarity_scores("I am happy!!!")
Out[3]: {'compound': 0.6784, 'neg': 0.0, 'neu': 0.179, 'pos': 0.821}

と"compound"，"neg"(nagative)，"neu"(neutral)，"pos"(positive)の4種類が0~1で出力されます．

データセットと実験

2014/10/31から2015/10/28までのTwitter Streaming APIで取得した英語のツイート(を先輩から頂きました!)．1日あたり1089358件ツイートがあった．各ツイートについて感情分析し，"pos"の値を日毎に平均をとった．さらに，最終的なデータについて平均0，標準偏差1となるように基準化を行いました．