本題に入る前にイベントの紹介です
facebookでオープンデータ界隈の方からイベント告知が流れてきたので行ってきました。自分の記録用だけど、長いんで3分割ぐらいで記載していきます。
詳細はここ→https://data-visualization-japan.connpass.com/event/47246/
注)技術的な話はほとんど書き~~(け)~~ません。
データビジュアライゼーションとは?
ここのサイトの説明が分かりやすかったです。(長いんで省略)
https://www.synergy-marketing.co.jp/glossary/data-visualization/
たとえばこんな↓コンテンツもビジュアライゼーションによるものだそうです。
青い光は、スマホからのPVが多かった号外らしいです。
本当にとんでもない年だったなぁ...とよくわかります。
号外ニュースで振り返る2016年
http://news.yahoo.co.jp/staffblog/special/lookback2016/
こんな方々が登壇していました(2016年カンファレンストーク登壇者)
・池宮伸次さん(ヤフー株式会社)
・矢崎裕一さん(Data Visualization Japan/Code For Tokyo)
・鎌田健一郎さん(日本経済新聞社)
・清水正行さん(GUNMA GIS GEEK)
・阿部博史さん(日本放送協会)
本当はLTで医療VRやナビタイムの中の方など他数人いらっしゃったのですが、LTの途中から気分が悪くなって退出してしまったので、イベント報告ができません。。。本当ごめんなさい...
本題:こんなカンファレンストークだった
熊本地震の検索データをビジュアライズのアプローチで分析した話 by yahoo!池宮さん
余談)歌詞分析。アーティストが持っている曲をテキスト解析して、似ている人をツリー化。池宮さんの最近の作品で一番お気に入りらしい。
yahoo!検索では、100億種類(≠100億回)の検索がされているそうです。
私が使ってるシステムから考えると、とんでも数すぎます...。
検索分析の王道と東日本大震災分析時の反省
分析の王道には、下記2点があるそうです。
- 検索数ランキング
- 検索数の推移波形
推移波形は平均株価のグラフとかでよく見るやつですが、「熊本地震+●●」と検索した人の推移波形のピークは、全国と熊本県で1か月ぐらい異なるそうです。これだけでも、ニュースとしての熊本地震と被災者としての熊本地震の重みの差が見える一端じゃないかと。
実は池宮さん、東日本大震災の時も検索キーワードの分析でレポートをまとめたことがあるそうですが、従来のやり方では、検索数が多いものは見つけやすいけど、推移波形におけるロングテール(波形が逓減して、横長い尻尾道みたいになっている)部分について分析ができなかったことを反省としていたそうです。
(具体的には、東日本大震災のときには関東圏でたくさんの帰宅困難者がでましたが、「●●線遅れ」というワードで検索するため、検索ランキング等ではそれぞれの沿線名ごとに分散されてしまう...ということだったらしいです)
熊本地震でやってみた共起ネットワーク分析
そこで熊本地震では、池宮さんが最近マイブームで取り組んでいた共起ネットワークで分析をしてみたとか...。結果、避難所など避難に関する情報や英語の被災者情報のニーズを検知することができた、ということでした。
-共起ネットワークとは
特徴語同士の共起関係をネットワーク図(クラスタ化)にするもの。
隠れていた需要をまとめ上げることで、隠れたニーズを掘り起こしやすい。
共起ネットワークの作り方
KH Coderを使えば簡単にできる(ただしWindowsに限るらしいです)
裏でRで動いているそうですが、Rで同じものを作らせるのは思ったより難しかったそうで(某K大学の授業で教えたら思ったよりできなかったらしいです)、初心者はありものをしっかり使いましょうとのことでした。
クラスタ化のポイントとしては、下記の2点らしいです。
1.欲張らないで、データをきれいにすること
2.解説してあげないと初見で誤解する人がいるので、展開する際には必ず解説を入れること
→ここらへんは、要約と同じかもしれないですね。情報の取捨選択とメッセージ性が大事ってあたり。
ということで、初心者にも使いやすい形態素解析の事例紹介でした。
冒頭の余談にあるとおり、色々ビジュアライゼーションにも取り組んでいらっしゃるのでしょうが、一発目ということもあって優しめのテキストマイニング的なお話をしてくださったように思います。
質疑応答
Q:ロングテール解消のためにワードを拾うときに、なんで共起ネットワークにしたのか。
A:単純にロングテールの分析余力がなかったから。時系列推移が中心にやっていた。自然言語処理についてはこれからもっとやっていきたいと思っている。
Q:KHcoder使わなくても、yahoo!のツールがあるのでは。
A:サクッと出したいときはKHcoderのほうが早いので、ものによって使い分けている。
Q:テキスト解析において言語間の距離に意味はないとのことだが、そうでもないのでは?(形態素解析のときに前後5つまでとかよくやるし...)
A:検索キーワード分析ではあまりそこまで距離を取らないので重要視していない。←言われてみるとたしかに、な質疑応答でした。