ネット選挙が解禁されて早一年、選挙終わるたびに民主主義さんや日本ちゃんの残機をスペランカーのように減らし続ける言論空間な今日この頃、皆様いかがおすごしでしょうか。
さて、今回は開票前後のツイートの内容を調べてみます。
##収集内容
2014/12/14 18:00 ~ 07:00 まで下記の情報を含むツイートを収集する
#総選挙,#衆院選,選挙
PythonでStreaming APIを使用して特定のキーワードを含んだツイートを取得しつづける
http://qiita.com/mima_ita/items/ecdf7de2fe619378beee
##収集、解析に使用したコード
https://github.com/mima3/stream_twitter
Windows7 Python2.7で動作確認済み
##収集結果の解析
収集したデータは下記からダウンロードできます。
http://needtec.sakura.ne.jp/doc/shuin47twitter.zip
###時間別のヒストグラム
まずは、ツイート数を時間別に見てみましょう。
先のコードを利用して2014/12/14 18:00 ~ 07:00までの1時間毎のデータをみてみます。
python twitter_db_hist.py "2014/12/14 9:00" "2014/12/14 22:00" 3600
※Twitter中の時刻がUTCで取得できるため日本時間だと9時間ずれています。
この結果は次のようになります。
時刻(UTC) | 日本時間 | 件数 |
---|---|---|
12/14 09:00 | 12/14 18:00 | 3149 |
12/14 10:00 | 12/14 19:00 | 4047 |
12/14 11:00 | 12/14 20:00 | 11280 |
12/14 12:00 | 12/14 21:00 | 9755 |
12/14 13:00 | 12/14 22:00 | 7199 |
12/14 14:00 | 12/14 23:00 | 5207 |
12/14 15:00 | 12/14 00:00 | 3472 |
12/14 16:00 | 12/14 01:00 | 3801 |
12/14 17:00 | 12/14 02:00 | 1545 |
12/14 18:00 | 12/14 03:00 | 529 |
12/14 19:00 | 12/14 04:00 | 292 |
12/14 20:00 | 12/14 05:00 | 300 |
12/14 21:00 | 12/14 06:00 | 477 |
20:00の開票のタイミングが一番もりあがります。
そして、時間経過とともにツイート数は減っていきます。
しかし、1:00代に復活し、その後はツイート数は減り、目の覚める5:00頃から多少回復します。
深夜はツイート数が減り、朝増えるのは理解できます。
しかし、夜中1:00代にツイート数が増加した理由はなんでしょうか?
このため、1:00代を1分単位でみてみましょう。
python twitter_db_hist.py "2014/12/14 16:00" "2014/12/14 17:00" 60
この結果をみると1:27分あたりで急速な盛り上がりを見せています。
このタイミングでなにが発生したのでしょうか?
ここで、民主党を愛してやまない海江田研究所の方々のスレを確認してみます。
【ふっかつのじゅもんがちがいます】海江田民主党研究第802弾【とうせんのしょはきえてしまいました】
http://anago.2ch.net/test/read.cgi/asia/1418565521/
811 :日出づる処の名無し:2014/12/15(月) 01:26:44.86 ID:tG+ZZ8gB
【当落速報】民主党の海江田万里代表が比例東京ブロックで復活せず、落選確実となった(01:19)(c)2ch.net
http://daily.2ch.net/test/read.cgi/newsplus/1418574054/
812 :日出づる処の名無し:2014/12/15(月) 01:26:49.76 ID:4Us97nfn
落選決定w
813 :日出づる処の名無し:2014/12/15(月) 01:26:51.11 ID:pW7uplw3
さよなら、万里
814 :日出づる処の名無し:2014/12/15(月) 01:27:01.20 ID:yIjazH47
うわああああNHKでも落選きたw
815 :日出づる処の名無し:2014/12/15(月) 01:27:02.02 ID:NOhUWn58
NHKでマリ完全落選
いやここからフェニックスするから!絶対にふぇにっくすだから____
816 :日出づる処の名無し:2014/12/15(月) 01:27:08.70 ID:4zmUGrZE
>>802
㌧。何もつまみ買ってきてないから鯖缶開けるわw
どうも当時の状況をみると1:19に朝日が号外として海江田代表の比例落選を報道し、NHKも1:27に同ニュースを報道したようです。
さすが、野党第一党の党首の進退は深夜のツイッタラーの眠気眼をもふきとばすインパクトがあったとうかがい知れます。また、この結果より、新聞の号外よりテレビの方が拡散力がつよいことがわかります。
###頻出単語の抽出
次は頻出単語を見てみましょう。
Mecabを用いることで、形態素解析を行い、その単語を集計しました。
これは以下のスクリプトで行うことができます。
python twitter_db_mecab.py "2014/12/14 9:00" "2014/12/14 22:00" > mecab.txt
以下にそのベスト100を表示します。
単語 | 出現数 |
---|---|
選挙 | 70626 |
区 | 33315 |
選 | 27196 |
衆院 | 27152 |
投票 | 13740 |
1 | 11698 |
当確 | 8386 |
自民党 | 7403 |
速報 | 7120 |
氏 | 7074 |
東京 | 6864 |
開票 | 6484 |
当選 | 6456 |
生 | 6443 |
NHK | 6222 |
0 | 5866 |
# | 5519 |
落選 | 5504 |
official | 5488 |
kyodo | 5487 |
確実 | 5384 |
2 | 5352 |
党 | 5236 |
番外 | 5229 |
議席 | 5025 |
行く | 4811 |
人 | 4796 |
BqAAr | 4633 |
vlhS | 4606 |
率 | 4460 |
比例 | 4419 |
自民 | 4302 |
ブロック | 4208 |
4 | 4196 |
てる | 4035 |
日 | 3912 |
候補 | 3811 |
衆議院 | 3782 |
seiji | 3773 |
9 | 3745 |
中 | 3726 |
日本 | 3611 |
jimin | 3607 |
koho | 3603 |
代表 | 3599 |
民主 | 3592 |
3 | 3589 |
者 | 3548 |
nicohou | 3490 |
JNSC | 3203 |
blogos | 3170 |
ld | 3125 |
名前 | 3098 |
安倍 | 3068 |
民主党 | 3039 |
言う | 3011 |
特番 | 2959 |
次世代 | 2889 |
% | 2881 |
時 | 2844 |
ニコ | 2817 |
られる | 2750 |
出演 | 2727 |
ビートたけし | 2723 |
れる | 2721 |
神奈川 | 2690 |
政治 | 2532 |
5 | 2511 |
海江田 | 2504 |
できる | 2488 |
分 | 2424 |
長 | 2371 |
年 | 2315 |
視聴 | 2315 |
沖縄 | 2231 |
復活 | 2176 |
上 | 2092 |
う | 1997 |
獲得 | 1977 |
票 | 1954 |
ない | 1953 |
現在 | 1926 |
維新 | 1905 |
首相 | 1898 |
報道 | 1888 |
報じる | 1882 |
池 | 1831 |
取る | 1775 |
共産党 | 1773 |
代 | 1769 |
必要 | 1766 |
nMDR | 1761 |
YidT | 1761 |
若者 | 1750 |
的 | 1727 |
用紙 | 1712 |
万里 | 1666 |
senkyost | 1645 |
情報 | 1628 |
是非 | 1618 |
やはり党名でもっとも抽出されたのは過半数を取った「自民党」でした。次に「民主党」、つづいて「次世代」で、あとは「維新」、「共産党」になります。
次世代の党は実際の議席数とネットでの注目度にかなりの乖離があるようです。
地名で抽出されたのは「東京」と「沖縄」でした。東京に関しては「東京新聞」の記事のリツイートもあったので、多く抽出され、沖縄に関しては自民党が小選挙区全滅という形になっていたので他の地域より注目があつまったと考えられます。
人名で注目されたのは「安倍」、「ビートたけし」、「海江田」でした。首相と野党第一党党首は当然としても、「ビートたけし」が注目されたの意外でした。どうもこれはニコ生で「ビートたけし」が出演していたためのようです。
###文節の係受けの関係を探る
最後に文節の係受けの関係をCabochaを用いて集計してみます。
WindowsにCabochaを入れる方法は下記を参照してください。
WindowsにCabochaをいれてPythonで係り受けを解析してみる
http://qiita.com/mima_ita/items/161cd869648edb30627b
なお、今回は0.66で解析しました。最新でも似たような結果になると思います。
これは以下のスクリプトで行うことができます。
python twitter_db_cabocha.py "2014/12/14 9:00" "2014/12/14 22:00" > cabocha.txt
以下にそのベスト100を表示します。
文節1 | 文節2 | 出現数 |
---|---|---|
落選 | 確実 | 1762 |
co/ | 4nMDR4YidT#総選挙http://t | 1557 |
投票率 | 0% | 1538 |
【選挙】衆院選、 | 10代 | 1534 |
10代 | 投票率 | 1534 |
若者 | 行く | 1504 |
名前 | 書く | 1504 |
RT@whsaito:投票用紙 | 記入する | 1502 |
名前 | 記入する | 1502 |
是非候補者 | 名前 | 1502 |
方式 | 取る | 1502 |
高い | 日本 | 1502 |
書く | 行く | 1502 |
取る | 日本 | 1502 |
記入する | 方式 | 1502 |
14日 | 行く | 1502 |
教育水準 | 高い | 1502 |
RT@kyoho_times: | 10代 | 1460 |
復活 | 確実 | 1288 |
奴 | 当選する | 1208 |
こういう | 奴 | 1208 |
行く-否定 | 当選する | 1186 |
当確 | 報じる | 1172 |
3700kei:#総選挙選挙 | 行く-否定 | 1141 |
RT@keisei | 3700kei:#総選挙選挙 | 1107 |
比例東京ブロック | 復活 | 1075 |
RT@kyodo_official:民主党 | 海江田万里代表 | 964 |
片山哲委員長 | 落選する | 928 |
落選する | 落選する | 928 |
海江田万里代表 | 復活 | 928 |
野党 | 落選する | 928 |
社会党 | 片山哲委員長 | 928 |
1949年衆院選 | 落選する | 928 |
敗北 | 確実 | 914 |
みんな | 政治http://t | 885 |
当選 | 確実 | 815 |
衆院選特集ページ | →http://t | 761 |
感じる | #選挙 | 755 |
投票所 | 聞く | 755 |
1票 | 格差 | 755 |
格差 | 感じる | 754 |
聞く | 感じる | 754 |
女子高校 | 聞く | 754 |
RT@kurosia:知り合い | 投票所 | 752 |
戦後最低 | 前回 | 742 |
RT@ld_blogos: | 【速報】 | 663 |
次世代 | 党 | 633 |
【速報】 | 当確 | 561 |
下回る | http://t | 551 |
RT@kyodo_official:次世代 | 党 | 546 |
衆院選 | 投票率 | 535 |
と | 述べる | 514 |
大阪10区民主・辻元清美氏 | 当確 | 475 |
候補者情報 | 衆議院選挙 | 2014-Yahoo |
午後 | 6時現在 | 424 |
投票率 | 34 | 424 |
79ポイント | 下回る | 420 |
全国平均 | 34 | 420 |
6時現在 | 34 | 420 |
98% | 前回 | 420 |
よる | 34 | 420 |
RT@senkyost: | 【獲得議席___ | 386 |
投票 | 行く | 379 |
集団的自衛権 | 行使容認 | 377 |
敗北 | 報じる | 370 |
当確 | 破る | 367 |
こと | 知る | 363 |
日本 | 知る | 360 |
Jリーグ復帰 | 知る | 359 |
こんなんなるなら | 出馬する | 359 |
そろそろ | Jリーグ復帰 | 359 |
俺様 | 出馬する | 359 |
必要 | 言う | 357 |
人当選#拡散希望___#RT | 人全員フォロー | 356 |
【悲報】アニメに | 必要 | 356 |
規制 | 必要 | 356 |
人当選 | 必要 | 356 |
言う | #選挙http://t | 355 |
人全員フォロー | #選挙http://t | 355 |
8bu_: | 必要 | 352 |
RT@K | 8bu_: | 352 |
#選挙#NHK#衆議院選挙#池上 | 選挙#開票 | 344 |
石原氏 | 明言する | 341 |
党 | 石原慎太郎最高顧問 | 341 |
今回衆院選 | 政界引退 | 341 |
石原慎太郎最高顧問 | 落選 | 341 |
政界引退 | 明言する | 341 |
co/ | 7LGbX1z | 322 |
RT@mainichijpedit:総務省 | よる | 309 |
理解 | 得る | 304 |
___http | ://t | 303 |
国民 | 理解 | 303 |
RT@jimin_koho: | /する | 301 |
こと | 確実 | 278 |
RT@jimin_koho: | / | 270 |
行使容認 | 表明する | 268 |
自民党 | 表明する | 268 |
表明する | 村上誠一郎氏 | 268 |
反対 | 表明する | 268 |
2区 | 表明する | 268 |
落選→確実が一位になっているあたり、ツイッターの関心は誰が受かるかより誰を落とすかへの注目が高いようです。
あと若者の投票率に関する言及が多いように見えます。ただ、「10代の投票率0%」というネタツイートが多いのも事実です。
「高い」→「日本」っていうのは「投票用紙に名前を記入する方式を取っているのは教育水準の高い日本だけ」というツイートが大量にリツイートされた結果のようです。
また、最初に述べたように、選挙の度に残機を減らされる民主主義と日本について調べてみました。
民主主義が死ぬといっているツイートが2件あったうち、民主主義は死なないと言っているツイートが11件なので多分、民主主義君の残機は思ったより減ってないようです。
ただし、以下のような残機を減らす言葉は数件抽出されました。
文節1 | 文節2 | 出現数 |
---|---|---|
民主主義 | 死ぬ | 2 |
民主主義 | 終わる | 2 |
民主主義 | 終了 | 2 |
民主主義 | 崩壊 | 2 |
・・・民主主義 | 崩壊 | 1 |
どうように日本ちゃんの残機の減少は以下の通りです。
文節1 | 文節2 | 出現数 |
---|---|---|
RT@inosan08260:日本終了確定 | 178kakapo:日本 | 7 |
自民 | 日本崩壊 | 4 |
もう | 日本崩壊 | 4 |
笑える | 日本崩壊 | 4 |
日本 | 潰す | 2 |
日本 | 終わる | 2 |
この結果より今回の選挙では民主主義の残機は9機へり、日本ちゃんの残機23機ほど減ったようです。
###データから読み取れる事のまとめ
・海江田さんが無職になると夜中なのに盛り上がったり、落選→確実という文節の係受けが頻出されるのをみると、誰が受かるかより誰が落ちるかの方が注目されます。
・次世代という単語の出現数と現実の結果をみると、ネットで注目されたからって議席はとれないといえます。
・選挙のたびに残機がゴリゴリ減っているイメージのあった民主主義と日本ですが、今回はそんなこともなかったようです。
##本当のまとめ
・・・ってな感じのインチキな解析が、それっぽく行えます。
時間ごとのツイートに関しては、この例のように、データの増減をみて、変化のあったところを詳細に調べていけばいいと思います。
単語の頻出については、たしかに注目を集めている事は簡単にわかります。しかしながら、この例の用に抽出数が多いことが即ポジティブな反応とは限らないことに注意する必要があります。
係受け解析ついては、単語のみの頻出を調べる弱点を克服できる可能性はあります。しかし、正直今回については、その可能性を十分に実践できていなかったでしょう。これは今後の課題になります。
ちなみに鍵垢のツイートについては、StreamingAPIのfilterでは取得できませんでした。