文・単語単位の評判分析とは何か
評判分析 (Sentiment Analysis) は、文章から書き手がポシティブな感情を抱いているか、ネガティブな感情を抱いているかを分類する問題です。SNSの投稿から商品の評判をモニタリングしたりなど商業的に使いやすいこと、分類問題として定式化しやすいなどの理由から、2000年台初頭から実施されはじめ1、今でも自然言語のトップカンファレンスで1つの分野として成立しています2。
さて、そんな評判分析ですが、近年では単なるポシティブ/ネガティブの二値分類を超え、観点付きだったり (「味は美味しいが、値段が高い」)、もっと細かく感情を分類したり、多言語だったり、タスクを難しくする方向で発展を続けています3。そのような高難易度化した評判分析の中に、Sub-document level sentiment analysis4というタスクがあります。このタスクでは、例えばTwitter投稿単位のポジネガだけでなく、各文のポジネガを分類します。このようなことが可能になると、ポジネガが書いてる部分をピンポイントに抽出したり、賛否両論の記載がある文書から両側の意見を抽出したりできるようになります。
本記事では文・単語単位の評判分析に取り組む際に使えるデータセットをまとめます。
文・単語単位の評判分析のデータセット
データセット名 | データ数 | データソース | アノテーション粒度 | レビュー全体のポジネガ | 観点付き |
---|---|---|---|---|---|
[SST](#Stanford Sentiment Treebank) | 10,662文 | 映画レビューサイト (rottentomato.com) | フレーズ | Yes | No |
[Lazaridou et al.](#Lazaridou et al.) | 65投稿 | ホテルレビュー | 文 | No | Yes |
[Täckström et al.](#Täckström et al.) | 294投稿 (3,836文) | Amazon商品レビュー | 文 | Yes | No |
HATDOC | 100投稿 (1,662文) | オーディオブックレビュー | 文 | Yes | Yes |
Stanford Sentiment Treebank
最も有名な評判分析データセットの1つ。Stanford Parserで構文木解析した文の各フレーズごとにポジネガが振られています。
![]() |
![]() |
---|---|
部分木ごとに5段階でポジネガがふってある | 他の文とは独立してポジネガをアノテーションしている |
※画像は論文より引用 |
公式ページ。ウェブサイトより直接ダウンロードできるほか、pythonなどから直接ダウンロードするツールも公開されています。アノテーション基準は論文にて言及されています。
Lazaridou et al.
ホテルレビューに対する観点付き+文単位 (厳密に言えば談話構造単位) のアノテーション。
詳細は論文に記載されています。著者のページからデータをダウンロードできます。
Täckström et al.
Amazonの商品レビューに対して文単位でポジネガをふったデータセット。 アノテーションは"positive", "negative", "neutral"に加え、"not related"という特殊なラベルが定義されています。
HATDOC
オーディオブックレビューのデータセット。他のデータと違い投稿全体のポジネガを判断するのにつかったのはどこかという基準でアノテーションされています (SSTとはちょうど逆の考え方)。
公式サイトからはダウンロードだけでなく可視化ツールも公開されています。アノテーション基準などを説明する論文。
BeerAdvocate
ビールへの論評に対する文単位のアノテーション。現在は公開されていないようです。同様のデータセットにratebeerというのがありますが、これも公開されていません。
-
ACL PC Chair Blog, "Accepted Papers, Demonstrations and TACL Articles for ACL 2017" ↩
-
"Sub-document level sentiment analysis"と呼ばれることは実はあまりない。評判が付される単位を使って、"Sentence level sentiment analysis"だとか、"Phrase level sentiment analysis"だとか呼ばれる。もっと一般的に"Fined-grained sentiment analysis"と呼ばれることが多いが、これは観点付き評判分析も含むようなので、本記事ではわけている。 ↩