前回の続きの分析を行ってみました。
前回の記事はこちら↓
https://qiita.com/hasuminbanana/private/4babc9498f3e384a6639
前回は国会の衆参本会議のデータを11年分収集してLDAによって50トピックを推定し、該当する文書数の変化を年次でプロットしてみました。
今回は
・週次でデータを切り分け、より細かい変化をみる
・朝日新聞の一面のデータを収集し、同時期の新聞の変化を見る
を行っていきます。
今回は、前回の分析によってこんなことができるよ、という紹介なので、コードの記載は省略します。(ほとんど同じことをしました。)
#データの収集
国会の衆参本会議の議事録を2015年-2017年の3年間で取得しました。
朝日新聞のデータは学校のデータベースから地道に取得しました。
収集時に週ごとのデータに切り分けでテキストファイルに保存し、52×3の156週で分析を行っていきます。
#LDA
作業は前回の記事と全く同じで、国会と朝日それぞれの文書でLDAによる50トピック推定を行います。
国会と朝日新聞の一面では同じような話題が語られていることもありますが、当然ながら、異なる話題が両者に含まれており、50トピックの別れ方は異なります。
今回は両者で同じトピックだと考えられるものをピックアップして比較しました。
各行がトピックであり、左側から順に構成比率の高い単語が並んでいます。
国会では答弁を行ったり、野党が与党を追求するようなトピックがあり、朝日ではシリアや北朝鮮、ロシアといった外国の名前が多く出てきています。
また、森友問題に関しては両者で同じようにトピックとして推定されていることがわかります。(国会8行目と朝日1行目)
#特定のトピックで文書数を時系列プロットする
今回は50トピックの中で共通していると推定される森友問題とTPPに関して、週ごとの文書数の時系列変化を辿っていきます。
前回の記事と同様にトピックxが20%以上含まれる文書をトピックx文書として、週次でトピック文書数をリストに格納していきました。
結果は以下のようになりました。
注意点としては、国会は休会している時期があり、その時期のトピック文書数は0になっていることです。(毎年7,8月あたり)
可視化して見ると、
国会では週ごと(あるいは日ごと)に集中的に議論されているのに対し、新聞では数週に渡って議論されていることがわかります。
新聞はニュースを繰り返し、粘着的に報道することで、読者の記憶を補完するということが考えられます。また、一連の事件に関する新情報の報道や、一通り事件が終わった後にまとめて整理するといった記事も散見されますよね。
そして、分析のテーマである、国会と新聞の関連という点で考えると、比較的両者が関連していることがわかりました。
一部では先にニュースが増えて、国会がその後に増え、また一方では国会での議論が増えてからニュースが増えており、両者は双方向に話題に影響を与えています。
#時系列分析
先ほどのプロットしたデータの結果が統計的に得られるかどうか確認します。
Rを用いてグレンジャー因果性検定を行いました。
グレンジャー因果性に関してこちらの記事が参考になります。
数式による説明は省略しますが、今回の件に即して説明すると、
国会のこれまでのTPP文書数から未来の国会のTPPの文書数を推定するよりも、
国会と新聞のこれまでのTPP文書数から未来の国会のTPPの文書数を推定するようがMSEが小さくなる時、新聞から国会へのグレンジャー因果性が存在する、ということになります。
新聞による報道が国会の議論に影響を与えているのか統計的に確かめる、ということです。
varsパッケージのVARモデルで森友問題,TPPについて国会と新聞の影響の因果関係を調べていきます。
いずれも有意な結果は得られず、因果関係があるとは言えないようです。
#終わりに
この記事は追加分析の報告ということで、コードは省略してこんなことがトピックモデルでできるよという説明をさせていただきました。
結果として因果関係は見れなかったのが残穢んですが、日次でデータを集める、一面以外の政治面や経済面もデータ集めるなどを行うと結果は変わってきそうです。