はじめに
本稿ではデータジャーナリズムの技術について、既存の報道をもとに解説をしてみようと思います。なお、筆者の本業はマーケティングです(データ分析者ではありません)。もし誤りやよりよい方法があれば遠慮なくご指摘いただけると嬉しいです。
今回扱う事例
西日本新聞が福岡市議会の議事録を解析した事例を扱います。
https://www.nishinippon.co.jp/item/n/319982/
※一部リンクが切れているところがあります
どのようなデータを扱っているか
上記の記事をみると、
・福岡市市議会の議事録約20年分(1997年~2016年9月)のデータ
・本会議と各委員会を含めて
・インターネットで公開されている議事録を分析した
・福岡市市議会の定例会および臨時会の議事録を対象に分析。期間は1997年2月~2016年9月
・住民基本台帳を基に、区以下の地名が含まれる計1万4616件の発言内容をまとめた
・位置情報は、国土交通省の位置参照情報ダウンロードサービスなどを参照した
あたりがヒントになりそうです。
まとめると、大きく3つのデータを利用していると推測できます。
- Web上で公開されている市議会の議事録((1997年2月~2016年9月、発言者と会議体の区別ができる形式で)
- 住民基本台帳の地名分類データ
- 国交省の位置参照情報ダウンロードサービスなど(「など」の内容は不明)
これらは、
最も大事な、分析の基盤となるデータが「1」
そのデータを集めた後、分析する前の前処理に必要なデータが「2」
分析結果を表現するのに必要なのが「3」
と言えそうです。
分析の大まかな流れ
大きく以下のような流れで進んでいきます。
個々の項目については、記事を分けて説明します。
なお、データ分析あるあるですが、工程の7割は収集〜前処理に割くことになると思います。地道な作業です。
-
データの収集
議事録データをwebサイトから収集する
必要なデータを、必要な形式で、自動的に収集する仕組みをつくる -
データの前処理
収集したデータそのままでは粗くて分析に耐えないので、きれいに整える
また、今回は自然言語を扱うので、形態素解析にかける -
データの分析
用意したデータを分析にかける
過不足や不備があれば、随時前の工程に戻ってやり直す -
分析結果の表現
グラフや地図へのプロット
順を追って説明していきます。
(別の記事に続く)