1. はじめに
センチメント分析に興味を持ち調査したことがありました。その際、センチメント分析研究の動向を把握するのに役立ったレビュー論文があります。本記事ではその論文で紹介されているセンチメント分析研究の各領域の概要を紹介します。
個人的な解釈を含む、簡単な説明しかしていないため、詳細を正確に知りたい方は原著論文をご覧ください。
2. センチメント分析研究の領域
Aspect-based Sentiment Analysis
センチメントとその対象をセットで分析。文章が複数の側面から構成されていて、それらに関連して様々な感情を持っている場合がよくある。例えば、「この俳優は他の優秀なキャストに比べて明らかに劣る。」という文章があった場合、「俳優」対する否定的な感情と「キャスト」に対する肯定的な感情を持っている。このような場合に対応できるよう、各エンティティに対するセンチメントを特定することを目的とした分析。
Multimodal Sentiment Analysis
マルチモーダルセンチメント分析。テキスト以外のデータ(モダリティ)も使ってセンチメントを分析する。
YouTubeのような動画コンテンツが増加しており、このような動画に含まれるユーザの感情を分析し、自社製品のマーケティングに活用することが期待されている。以下の図の下の例を見るとわかるようにテキストだけでなく、他のモダリティ(音声や画像)を使うことで人のセンチメントをより正しく判断できる可能性がある。
Contextual Sentiment Analysis
文脈を踏まえたセンチメント分析。例えば、大きいという言葉は文脈での使われ方によって逆のセンチメントになり得る。「大きい家で休暇を過ごす」という文脈では大きいはポジティブな感情を与え、「大きい家は掃除が大変」という文脈では大きいはネガティブな感情を与える。そのため、文脈を考慮することでセンチメントをより適切に判断できる可能性がある。
文脈情報は会話の時も有用で、短い発話を分類する時は顕著に有用(下図)。会話では、過去の会話を文脈とみなすことができる。
センチメントに影響を与える文脈は前後の言葉だけでなく、発言者の性格、文化的背景、置かれている状況、常識などもある。
例えば、注文がキャンセルされた時、嫌味な人はネガティブな感情を「great」という言葉で表現するかもしれない。あるいは、「先週から太陽を見ていない」という発言者のセンチメントは、一般的に太陽を長く見ていないことはネガティブな出来事という常識が通じるならネガティブとなる。
Sentiment Reasoning
センチメントの根拠(または誰のセンチメントか)を分析。例えば、「映画はつまらなかった」と「ステラは映画がつまらないと思った」では、前者は発言者のセンチメントを表し、後者はステラのセンチメントで発言者のセンチメントではない。意見を述べたテキストを分析する際は、センチメントの持ち主を知ることが重要になることが多いため、誰のセンチメントか分析することは重要。
一方、スマートホンのレビューで「バッテリーの消耗が早いから嫌だ」と書かれていた場合、バッテリーに対するネガティブなセンチメントを知ることは重要だが、そのようなセンチメントになった原因を知ることも重要になるため、センチメントとその根拠を分析することは重要。
Domain Adaptation
特定領域への適用(という訳になるかと思いますが、研究の方向性としては複数の領域に適用できるセンチメント分析というかと思います)。
特定の領域にセンチメント分析を適用する際、その領域の学習データを作成することになるが、適用したい領域が多数ある場合に学習データを作成することは容易ではない。そのような場合、複数の領域に適用できるセンチメント分析が求められる。
Multilingual Sentiment Analysis
多言語に対応したセンチメント分析。大半の研究は英語のデータセットを使って行われてきたが、SNSの普及により多言語のデータセットが利用できる状況になった結果、多様な言語を用いた研究が増加している。ただ、複数言語が混在するテキストに対するセンチメント分析の研究はほとんど行われていない。
Sarcasm Analysis
皮肉を判定する分析。ニュアンスや暗黙の意味を伴う比喩的な表現のため判定することは容易でない。
Sentiment-Aware Natural Language Generation
心ある文章生成。人間のコミュニーションに見られる情緒的な文章を生成する。チャットボットなど様々なアプリケーションで求められている。
Bias in Sentiment Analysis Systems
センチメント分析における偏り。センチメント分析結果に偏りがあると、少数派の感情が反映されず、適切な結果を得られない可能性がある。例えば、ウィキペディアが学習データとして使われることが多いが、女性の投稿は15%未満という調査結果が報告されている。そのため、ウィキペディアを学習データとして使用すると、女性の視点が過小評価される可能性がある。