Googleクラウド自然言語APIの感情分析触っていまして、ポジネガを判定するシステムなど開発しています。ツイッターやらはてブのコメントなど分析した結果をみていると、まあまあの精度が出ています。
#自然言語APIについて
クラウド自然言語はこちらです
https://cloud.google.com/natural-language/?hl=ja
Google の機械学習を使って、非構造化テキストから分析情報を得る
というものになります。具体的には、ある文章を入力するとアウトプットとして、その文章に含まれる固有名詞、場所、人物などの情報、そしてその文章全体の感情などを測定することができます。センチメント分析は文章の感情を、ポジティブ・ニュートラル・ネガティブかを判断します。scoreとmagnitudeという値で感情を判断します。
#センチメント分析をやってみた
実際にセンチメント分析してみたました。
分析対象のページは 木梨憲武お悩み相談「自分の才能や合う仕事がわかりません(22才男性)」 のブコメです。
#scoreが高い・低い文章を見てみた
スコアが0.9、0.5、0.0、-0.1、-0.5、-0.8のものを抜粋して見てみます。※0.9のコメントがなかったため
スコア0.9
- かっこいい
- 人に助けられてきた人は助けるのが上手だよね
- いいアドバイス貰ったな~ で終わらせないあたり強い
- 良い意味でのとんねるず感
- 好きな仕事を探す、でなく、環境が仕事を好きにさせる… わかる、いいね。
スコア0.5
- ただ上からモノ言って終わりじゃなく、会ったこともない人間にチャンスを作ってあげるお悩み相談ってすごいな。会社の上司ですら他人事な人間で溢れてるのに。
- 後の展開も気になるけどノリさんの「結局は人」ってすごい納得した
- 北方謙三が「ソープ予約しといたから!」ってくらいすごい
- かっけえ これでリバティー君が動くか。
- 出来る人と繋がろうとするの大事ね。
スコア0.1
- スターだな
- すっげぇな
- イカおやじを彷彿させる
- 続報知りたいわ
- はがき職人が出待ちして構成作家見習いになるような感じ。
スコア0.0
- 今回の結末はどうあれ、若い人に道を作ってあげられる人には憧れるし尊敬する。
- なんかすげー
- ぐっとくる
- 文字通りリバティか。
- コネがあれば...と思い描くことがあっても、こう急にチャンスが舞い込んできたら困惑するだろうなぁ。
スコア-0.1
- 相談じゃなくて解決させようとしてるっさすが
- らっきょうきらいきらいと隣で言い続けられたら、らっきょうがきらいになった人。
- なんでブクマめっちゃついてるんやろ、と思ったら何この展開、しびれるな
- どう考えてもこれ木梨憲武さんの才能の塊の賜物でしょこんなん誰もかなわんわ……
スコア-0.5
- ラジオにメールするというのは決して大それた努力ではないが、何もしないより何かした、という一点においてはるかに大きな一歩であるということ。
- すんごいとんねるずっぽい嫌な感じwのオチだけどラジオに相談メール出すって行動だけで人生大きく動かせるかもしれないからとりあえず動いて失敗したら次行く元気があればなんとかなる
- とは言え、たぶんこの回答はレギュラー出演なら言えなかったと思う。
- すてきな展開だけど同じことを石橋がやったら「権力ふりかざしてる」「周りのスタッフに迷惑」「新手のパワハラ」みたく叩かれて石橋もその空気を知ってて「憲武はいいよなー」って拗ねるパターン
スコア-0.8
- 落ち目扱いされてる時期でもこういうこと出来るのがとんねるずだよなあ。
- えっと・・・とりあえず長い!長すぎる・・・答えに行くまでに離脱しちゃいました。読んでもらえない時点で厳しいなぁ・・・
という感じです。分類できているような、できない部分もあるような。なんとなくですが、文脈は関係なしにネガティブっぽいワードが入っている文章はネガティブになりがちなのかなと思います。ただ、0.9と0.5の違いはよくわからないですかね、、、
#ネガティブな文章にポジティブな内容を足してみる
ここからは実験です。分析結果の文章を眺めていて「いいね」というワードってポジティブに捉えられるのかなと思って、ネガティブな文章に「いいね」というワードを足したらどうなるのかやってみました。
いいねをつける前
内容 | スコア |
---|---|
相談じゃなくて解決させようとしてるっさすが | -0.1 |
どう考えてもこれ木梨憲武さんの才能の塊の賜物でしょこんなん誰もかなわんわ…… | -0.1 |
とは言え、たぶんこの回答はレギュラー出演なら言えなかったと思う。 | -0.5 |
いいねをつけた後
内容 | スコア |
---|---|
いいね。相談じゃなくて解決させようとしてるっさすが | 0.2 |
いいね。どう考えてもこれ木梨憲武さんの才能の塊の賜物でしょこんなん誰もかなわんわ…… | 0.3 |
いいね。とは言え、たぶんこの回答はレギュラー出演なら言えなかったと思う。 | 0.1 |
というかんじで相殺されてポジティブになりました。
#「すごい」という言葉のスコアを調べた
「すごい」っていろんな言い方あると思うのですね。「すご」とか「すっげ」とかそういう言葉のスコアの違いを調べてみました。
内容 | スコア |
---|---|
すごい | 0.7 |
すげえ | 0 |
すげぇぇぇ | 0 |
すっごい | 0.1 |
すご | 0.8 |
すっごく | 0.1 |
すごーい | 0 |
すごーい! | 0.1 |
でした。結構スコア違いますね。(大丈夫なのかな。)
ということで、センチメント分析についてでした。また今度自然言語APIについて記事にしたいと思います。