やばい(ヤバイ)
僕があまり好きではない言葉です.
好きじゃない理由としては,「やばい(ヤバイ)」っていうのがどういうことを意味しているのかを察することができないからです.
おそらくみんな「やばい(ヤバイ)ってどういう意味」と聞かれたら答えれないですよね?
word2vecで教えてもらおう!
というわけで,word2vecで「やばい(ヤバイ)」がどういう意味なのかを検証してみます.
※今回はソースコードは掲載していません.そのうち,GitHubで公開する予定です.
Twitterのツイート収集
Streaming APIを使ってRubyで書きました.
1日集めて約300,000ツイート収集できました.
ツイートの前処理
- リプ(@~~~の部分)の除去
今回のRubyのプログラムでは,日本語のツイートをすべて収集しているため,ツイート上に「@~~~」があるやつ(リプ)があります.これは正直邪魔なので,すべて削除しました.
- 名詞・動詞・形容詞以外の除去
そのまんまです.word2vecに助詞や助動詞は必要ないと思います.
word2vecを実装
gensimを使用しました.
また,学習ではよく知られている「自分自身が最も類似度が高いのが?回以上になったら終了」というのを終了条件としました.
今回は?は93回とします.
結果
とりあえずまずは,今はやりの「羽生」と類似度の高いものを算出した結果です.
羽生:
??
須崎
闘気
金メダル
木原
宇野
磨く
葛西
レガッタ
ソチ
なんか「??」が混じっていて気に食わないんですが,まあよしとしましょう(笑)
次は本命の「やばい」と類似度の高いものを算出した結果です.
やばい:
ヤバイ
まじ
やばかっ
しんどい
びびっ
やばく
ほんと
ほんま
つらい
むり
うーん・・・よくわかりませんね(笑)とりあえずマイナス要素が多いということしかわかりません(笑)
次は「ヤバイ」と類似度の高いものを算出した結果です.
ヤバイ:
やばい
びびっ
マジ
クソ
まじ
流石
驚き
ショック
ビビっ
ウケる
「やばい」に比べて「ヤバイ」のほうがいろいろな意味がありました(笑)
講評
結局何もわかりませんでした!