自然言語のAPIを使って結果を眺めたり集計しています。そんな中でセンチメント分析の面白い傾向を見つけたのでメモ。
#皮肉っぽいコメントが分析数値が合ってなさそう問題
例えば、この記事 → 爆死案件が続々「クールジャパン」はこんなにひどいことになっていた。見た感じ、うわーな案件だと思いまして、ネガティブなコメント結構ついてるかなとおもったら、ポジティブなスコアがちらほらありました。おやと思って、ポジティブ判定された文章の詳細を見ると、
文章 | スコア | 分類 |
---|---|---|
関係者の財布がクールになってるからいいんじゃね(棒) | 0.9 | ポジティブ |
COOLからHOTになっちまうよ | 0.8 | ポジティブ |
日本のことがよく分かって良かったですね | 0.8 | ポジティブ |
こんなに期待通りになるんなんて流石に予想外だよ | 0.6 | ポジティブ |
お友だちに国の金あげるジャパン | 0.6 | ポジティブ |
俺もなー 責任取らなくて良いお金で大手を振ってみたいもんだぜ | 0.6 | ポジティブ |
こんな感じで、皮肉っぽい文章は概ねポジティブと捉えられてしまうことを発見しました。人間が文章を読むと皮肉だと気づきますが、機械で判定するには難しいんですかね。言葉通りに受け取るとポジティブに捉えられてしまうという。
また、ひねった言い回しとかも感情分析の精度悪いような印象あります。
#京都の言い回しを感情分析してみる
皮肉といえば、最近京都の言い回し(ぶぶづけ食べる?的なやつ)が話題になってたなーと思いまして、その言い回しを感情分析するとどうなるんだろうと思ってやって見ました。
予想はスコアはポジティブになるだろうなという予想です、が結果はいかに、、、
参考:Twitter発。『京都(人)、すげえ…』ってなる報告
文章 | スコア | 分類 |
---|---|---|
楽しそうでよろしおすなぁ | 0.9 | ポジティブ |
はんなりしてはるわぁ | 0.1 | ニュートラル |
あらまぁ、しっかりしてはるわぁ | 0.2 | ニュートラル |
えらいお人どすなぁ | 0.2 | ニュートラル |
お茶いる? | 0 | ニュートラル |
アンタいつ見ても元気そうやなぁ | 0.8 | ポジティブ |
たいそう元気でいらっしゃいますなぁ、外で走ってきはったらええんちゃいます? | 0.4 | ポジティブ |
でした。とはいえ、京都の言い回しに限らず、ストレートに受け取ったらポジティブに受け取る内容ですから、判断は難しいですね。というか人間でも判断できないかも。。
まとめ
自然言語APIは言葉通りを分析するしかないため、皮肉な言い回しの文章のセンチメント分析は難しそうですね。皮肉も文章通りに受け取るとポジティブな内容ですからね、、、この部分も解析しようとするのは、、、そもそもできるのだろうか。
褒めてるようで本当は褒めてない、ような文章って結構多いですよね、、、こういった内容をどう扱って集計するのもテクニックの一つなのかなと感じました。