1. 背景
データ分析関連について、周りの進みが早すぎてなにも分からなくなってしまった昨今でしたが、何かないかと探していた時に、
そうだ参議院選挙がある!と気づき、ユーザーのTwitterへの投稿から参議院選挙のある程度の情勢を予測できるんじゃないか?!と思い
思い立ったが吉日でやってみようと思った次第です。(一文の量)
しかしいつも大作を作り上げようとして途中で挫折して放置するのが僕の常なので、
今回はめちゃくちゃ細切れにあげていけば続くんじゃないかという期待も込めて
めちゃくちゃ細切れにあげていく所存です。
2. 現実
とはいえ、現実はいつも世の中の厳しさを教えてくれます。
ツイッターは選挙結果の予測指標にならず=調査 by ロイター通信
Twitterから選挙結果を予想できない、その理由は?
など、Twitterから選挙結果は予測できないぞ!とやる気満々の僕の心をへし折ろうとしてくる記事もたくさんありました。
ですがさすが東大の松尾先生、以下の論文がパブリッシュされています。(約10年前だけど)
2013年参議院議員選挙におけるTwitterを用いた当選者予測
僕はまだこの論文を読んではいませんが、出来なくはないんだろうという淡い期待をもとに取り掛かることにします。
3. 分析ステップ
楽観的に考えて、現状以下の分析ステップを踏めば完璧に予測できると考えてます。
1. Twitter APIを活用して、選挙当日までの選挙に関するツイートを取得
2. 取得したツイートをMeCabで形態素解析して、各政党ごとにWordCloudでの関連単語図式化や単語感情極性対応表によるポジネガ分析を実施
3. (今回は)実際の選挙結果と予測結果を照らし合わせて人力ニューラルネットで精度改善
4. 現時点の課題
とはいえ、現時点で考えられる問題点もたくさんあるので、対応策も必要になります。
- 一部の同一ユーザーが大量にツイートしていた場合、実際の投票結果とギャップが生まれる(Twitterユーザーに絞っている時点で偏っていることは一旦置いておいて笑)
- 一つのツイートに複数の政党名が載っていた場合、どちらの政党に対する意見なのかが不明
- 単純にやるとRTも大量にデータとして取得してしまう
など、
分析を重ねる中で適宜改善しなければなりません。。。乞うご期待。
5. その他
本記事との関連は薄いですが、以下の記事でニューラルネットワークの理論について気合入れて書いているので、もしよければ是非ご参照下さい!
①初心者の初心者による初心者のためのニューラルネットワーク#1〜理論:順伝播編〜
②初心者の初心者による初心者のためのニューラルネットワーク#2〜理論:誤差計算編〜
③初心者の初心者による初心者のためのニューラルネットワーク#3〜理論:逆伝播編〜
④初心者の初心者による初心者のためのニューラルネットワーク#4〜理論:パラメータ更新編〜