概要
声優、アーティストとして活躍中の田村ゆかりさん(ゆかりん)の歌詞を可視化してみます
主にPythonとKHCoderの使い方確認
データ取得
「歌ネット」
https://www.uta-net.com/
からデータを取得します。
先人(Aidemy Tech Blog)がBeautifulSoupを利用して歌詞取得しているスクリプトを公開しているのでほぼそのまま流用させていただく
326曲もありますね。
キャラソンも含まれてるようなので除外しようかとも思いましたが
ざっくり可視化のためそのまま
可視化
共起ネットワーク
KHCoderで可視化しました。
いきなり結果ですが以下の通りです。
ほとんど前処理いれていないけど、なんかいい感じ
いくつかの曲も想起されつつ、ポジティブな言葉も多くてニヤニヤしちゃいます
「ねぇ」がいいですね
Word2Vec
Aidemy Tech Blogのとおり、ゆかりんにも「恋」とは何か聞いてみました(word2vec)
ベストテンは以下の通り
0 ゴコロ 0.9935595989227295
1 気分 0.9933409690856934
2 メール 0.9930744171142578
3 つかまえる 0.9926524758338928
4 切る 0.9924467206001282
5 ふう 0.9921718835830688
6 一瞬 0.991794764995575
7 ほる 0.9917645454406738
8 がんばる 0.9917554259300232
9 持つ 0.9917395710945129
「ゴコロ」は「恋ゴコロ」として必ず一緒に出てくるからNo.1になっていますね
「ふう」、「ほる」あたりはちょっとよくわからないのでもうちょっと前処理が必要そう
1部の歌詞(20曲分)だけ抽出して「恋」とは何か聞いてみたのが以下のとおり
こっちのほうが詩的な感じ
0 聞く 0.9997913837432861
1 あせる 0.9997637867927551
2 生まれる 0.9997403621673584
3 起こす 0.9997315406799316
4 きり 0.999724268913269
5 気持ち 0.9996978044509888
6 こぼれる 0.9996976256370544
7 あふれる 0.999697208404541
8 かける 0.9996947050094604
9 涙 0.9996943473815918
参考サイト
・西野カナに「恋」とは何か聞いてみた
http://blog.aidemy.net/entry/2018/06/15/174827
・KHCoder
http://khcoder.net/
・『社会調査のための計量テキスト分析』 樋口耕一著
http://khcoder.net/book.html