こんにちは!(の時間のうちに投稿できることを目指した書き始め)
IESHIL CONNECT / IESHILでディレクターをしている稲垣と申します。
こちらはLivesense - 関 Advent Calendar 2017、17件目のエントリです。
「関」で非エンジニアが真っ先に思いつくのはやっぱり関数ですが、今年覚えた新しい関数が1コしかないので 今年は大量の緯度経度データを扱う新サービスの立ち上げを0から担当させてもらったので、地理空間系のビッグデータと企画骨子を関連付けるときに知っておきたかったことを投稿させていただきます。
総務省からDATA GO JPというオープンデータのカタログサイトなどが立ち上がるなど、オープンデータ戦略に注目が集まる近年ですが、まだまだ「どうやって向き合っていいか分からない…(´・ω・`)」という人が大半なのではないでしょうか。
かく言う私も去年まで、地理空間データとは面識はありませんでしたが、今年1年で**「緯度経度って可愛い」**って思うようになりました。(個人の感想です)
そんなこんなで、おおまかにこんな流れでお届けします。
- サービスの自己紹介
- 取り扱った地理空間データ
- ふんわりした企画をデータと詰め切るポイント
- 緯度経度データにも強い!分析ツール「Tableau」でお手軽ハザードマップをつくろう
1. サービスの自己紹介
IESHIL CONNECTは、地震・洪水・液状化などの災害リスクを、マンションごとにまとめて検索・確認することができる不動産営業マン向けの情報ツールです。
イメージとしては、SUUMOやLIFULL(旧HOME'S)などで物件を検索した時に、平米数や築年数などと一緒にハザードマップや、災害リスクの解説文がチェックできるようなサイトを思い浮かべてみていただければと思います。
住まいを探すときに、「永く安心して、心地よく暮らせる環境かどうか」を可視化するサービスになることを目指し、まずは災害リスクの情報提供からスタートしました。
もう少し興味を持っていただけた方は、開発背景などの記事も併せて読んでみてください!
2. 取り扱った地理空間データ
今回の開発では、**マンションデータ(27万件) ✕ 災害データ(8億ポイント)**を扱いました。
災害データはオープンデータを編集・活用しています。
-
IESHILのマンションデータ
- 緯度経度、住所、築年数、階建て、構造、査定価格、etc.
- 災害データ
- 緯度経度、想定震度
- 緯度経度、PL値(液状化リスクを表す値)
- 緯度経度、洪水時の想定浸水深
- 緯度経度、土砂災害警戒エリア判定フラグ
そうです、27万件のマンションと8億ポイントの災害データを緯度経度で紐付けて取り回していきます。
災害ごとにデータの特性も異なってきてしまうので、ここから先は「地震」にフォーカスしてご紹介します。
3. ふんわりした企画をデータと詰め切るポイント
さて、勝負はこれから。
データは目の前にありますがその量は手に余り、また緯度経度という特性上、生データを見ても一体どこで何が起こるかサッパリです。
このときに決まっていたことは、大きく3つ。
- マップ上で災害リスクを可視化したい
- 地震が起こったときに、どんな被害や生活影響が起こるかを、文章で解説したい(そしてその文章を自動生成したい)
- 災害リスクをスコアリング(★★★☆☆)で表現したい
ふんわりしてますね。このフンワリ感と、目の前の膨大なデータを紐付けるには、
「ハザードマップ形式で見せたいなら、塗り分ける色数は人の目で判別できないと困るから、最大5色になるようにデータまとめよう!」といったように、実現したいことをベースに情報を整理し、データに与える制約や、その後の作業をまとめていく工程が重要でした。
震度のMAX値とMIN値・平均と分散といった特徴、また地図上の空間と紐付けた際のバラつき具合を、ちゃんと肌で理解していないと非常に進めにくい工程です。
なお、この工程は完全にニワトリタマゴです。
例えば、「最初は4色でいきたいと思ったけど数値の分散と地図上のマッピング見てみたら、明らかに同じ色の面積が広すぎるから、もう1色増やしたい」みたいなことがガンガン起こります。
さらに、今は新規サービス開発の真っ只中。いちいち、イメージ確認用のモックなんて用意している場合ではありません。
だからこそ、機能として下記の2つが必要不可欠になってきます。
- 大量のデータを素早く演算できる
- 地図上のマッピングやグラフ化など、目で見て理解できる形に処理する
扱ったデータはTreasure Data上で共有してもらっていたため、前者にはあまり苦戦しませんでした。
元データが8億行あっても1分未満で返してくれるPrestoの威力に、これほど感謝したことはありません。
困ったのは後者です。
4. 緯度経度データにも強い!分析ツール「Tableau」でお手軽ハザードマップをつくろう
ということで、マッピングです。
緯度経度データを地図上に表してほしいのです。
できそうなツールは何種類かありますが、
今回は、前者の「大量のデータを素早く演算できる」ことや、「グラフ化」などもセットで叶えてくれる点から
**Tableau Desktop**を導入しました。
「なーんだ、結局有料ツールか」と思った方も、ご安心ください。無料版(Tableau Public)があります。
無料版では「Public」の名の通り、データを保存する際にオンライン公開する必要があります。
公開不可なデータの取り回しには不向きですが、保存不要な一時的な分析や公開しても問題ないデータの処理なら無料版でも活躍してくれるでしょう。
どのくらい簡単かというと、5ステップで簡易なハザードマップができてしまうくらいです。
具体的な流れをご紹介しますね。
1. 取り込んだデータを地図の形に落とす
いきなりです。まずは、CSVなど取り込みたいデータをTableauで開いたら、
該当する情報列(以下フィールド)に対し、「緯度」「経度」のそれぞれの役割を割り振ります。
役割が割り振れたら、「緯度」「経度」それぞれを「メジャー」から「ディメンション」に移すため、上にぐいっとドラッグ&ドロップします。
ディメンションに移せたら、「緯度」を行、「経度」が列にあたるようにもう一度フィールドをドラッグ&ドロップします。
はい!地図になりました!
2. 不要なデータを削る
ちょっと縮尺が小さすぎるのでスクロールで寄ってみます。…困りました。明らかに変なところ(海)にもポイントがあります。
では、フィルタ機能で不要データを削りましょう。
フィルタリングしたいフィールドを「フィルタ」にドラッグ&ドロップして、「NULL」からチェックを外して適用→OKします。
今回はNULLの行を地図から省きますが、この機能なら「震度3未満のポイントを除外する」などの処理ももちろん可能です。
スッキリキレイになりましたね!
3. データの値によって色を塗り分ける
これは本当にカンタン。塗り分けたいフィールドを「色」にドラッグ&ドロップするだけ!
(小数点以下が何位にも細かくなっているデータを0.5刻みのグループに均す「ビンの作成」という処理を間に挟んでいますが、こちらは割愛します。)
4. 色の変更
ハザードマップなので、危険なところほど危険そうな色にしたいところです。
「色の編集」では、既存のカラーパレットから色のパターンを選択することができます。
これで、震度の大小がいかにも分かりやすい感じになりましたね。
なんと、データの取り込みからココまで、5分以内でできてしまいます。
さらにさらに、気になる0.5刻みに均した震度データのレコード数分布チェックもあっという間です。
新しいシートを足して、列に作成したビンを、行にレコード数を落とすだけ。
こうやって見て初めて、「3.5」のグループと「4.0」のグループをまとめて「4.5未満」のグループにしたいなー、
などのイメージが湧くようになります。
最初「8億行…?27万件…?」と思っていたデータも、こうやって地図に落ちたり、グラフになったりすると一気に把握しやすくなりますね。
Google Mapなどのオンライン地図サービスを背景地図として取り込むなど、カスタマイズ性にも優れているのはもちろん、
とにかく処理が早いのでデータ処理作業の時間を削って考える時間を増やしてくれるのがとても心強い味方でした。
おわりに
いかがでしたか?
ほんの少しでも、**「緯度経度データって可愛い」**の気持ちが伝わったなら幸いです。
生データは無機質です。
一方、「知っている地名」✕「知っている情報」として関連付けられると一気に違う扉が開いて見え、感動することがたくさんありました。この記事を読んでくださった皆さんの地図に、来年少し違う色が加わるといいな、と思います。笑
最後に、初めてづくしのサービス開発に一緒に向き合い、この記事で紹介した感動とワクワクを共有してくれたチームの皆さんに1年分の感謝を!!
来年はもっともっと、新しい扉がたくさん開きますように!
明日はreprimandeセンパイです。
よろしくお願いしますm(_ _)m