LoginSignup
5
5

More than 5 years have passed since last update.

自然言語処理でツイート分析@#バンドリ

Posted at

はじめに

BanG Dream!(バンドリ!)というプロジェクトがあります。
漫画、アニメ、映画、ゲーム、ライブと様々な展開がされていて、2019年2月28日(木)で4周年を迎えました。
その一環として、当日はTwitterの公式アカウントから様々なお題(アンケート)がされていました。
今回、以下のお題に対するツイートを緩く分析してみました(分析と言えないかもですが)。

対象ツイート

対象ツイートは、出題から次のお題が出題されるまでのツイート4297件です。

やったこと

ざっくりと次の流れ
1. 対象のツイート収集
2. ユーザのプロフィールをもとにクラスタリング
3. 各クラスタごとにプロフィール、ツイートを可視化

1. 対象のツイート収集

  • TwitterAPIを用いて収集

2. ユーザのプロフィールをもとにクラスタリング

  • プロフィール文をSentencepieceでトークン化
  • BERTの事前学習済みモデルを用いてベクトル化
  • K-meansでクラスタリング(今回はn=5)

3. 各クラスタごとにプロフィール、ツイートを可視化

  • プロフィール、ツイートをMecabで形態素解析
  • wordcloudで可視化

結果

どう感じるかはその人次第かも。
ツイート全部と特徴的なクラスタ3つ。
どの曲が人気が高いのか大体わかるかと思います。

ツイート全部

words.png
一文字だけを除いてしまっているので、それを含めてみると「Y.O.L.O!!!!!」や「R」も人気がありました。

クラスタ1. あなた達、Roseliaにすべてを賭ける覚悟はある?

  • プロフィール profile_3.png
  • ツイート words_3.png Roseliaファンが多く、熱心にライブに行っている人が多そうです。

クラスタ2. 声優ファン

  • プロフィール profile_2.png
  • ツイート words_2.png 市ヶ谷有咲役の伊藤彩沙さんのファンが多いだけにキャラソン「す、好きなんかじゃない!」が明らかに多そうです。 同様に前島亜美さんのファンが多いことから「もういちどルミナス」も多そう。

クラスタ3. キャラのファン

  • プロフィール profile_4.png
  • ツイート words_4.png キャラクターや他のブシロードコンテンツ(ラブライブ、スタリラ)なども好きなファンは、幅広く好きな曲を挙げた人が多そうです。

感想

本当はきちんと集計とかしたかったけれども、表記ゆれや抽出後の分割等が大変で一旦諦めました。
やったことの細かいところは余裕があれば後日追記します。

参考

5
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
5