#はじめに
皆さま、こんにちは。
Location Tech Advent Calendar 2021 by LBMA Japan 15日目の投稿を担当する株式会社truestarの藤です。
この記事では『位置に紐づく』、つまりLocation Based なオープンデータを手軽で使いやすくする取り組みをご紹介致します。
#使ってみたい気はするけど・・・
『位置に紐づくオープンデータ』って、存在することは知っているけど使ったことはない、という方は多いと思います。
理由は大きく三つあると考えています。
###①なんか難しそう
「GISツールって何?」
「SHP(シェープ)ファイルって?なんで違う拡張子のファイルもあるの?」
というように、店舗開発などの特定の部署の方以外はなかなか触る機会もない、大多数のデータ分析者にとっては未知の存在でした。
しかし、実際には難しくはありません。
BIツールのTableauなど、今では汎用的な分析ツールで誰でも簡単に可視化できるようになっています。
###②面倒くさそう
はい。
実際面倒なことが多いです。
この話は次のセクションで詳しくご説明します。
###③高そう
いいえ。
ここで取り扱うのはオープンデータですので自分で集めれば無料です。
実際に多種多様なデータが様々なところで公開されています。
#面倒を全部なくしたい
三つ上げた中で『②面倒くさそう』が一番の課題だと考えています。
欲しいデータを探す
探したデータをダウンロードする
ダウンロードしたデータを分析用に加工する
加工したデータをちゃんと管理する
etc.
はい。超面倒です。
具体例を見てみましょう。
国のオープンデータは全て総務省統計局のe-Statで共有して欲しいところですが、実際はそうなっていません。
様々な官公庁・自治体が各々共有されていることが多く、分析者側からするとなかなか使いづらい環境です。
しかも、e-Statで『人口 市区町村』でキーワード検索すると国勢調査はヒットしなかったりします。(国勢調査には市区町村別に多様な人口統計データを持っているにもかかわらずです。)
データを見つけたとして、ダウンロードも大変です。
国土数値情報の1kmメッシュ別将来推計人口は全国一括でダウンロードできません。47回ポチポチする必要があります。
全国統合したって数百MB程度しかないのに・・・。
また、ダウンロードしたデータが下のような仕様だとどうでしょう?
分析のために整形加工する必要がありますね。
自分のPCで頑張って加工して使えるようになったとして、そのデータをどう管理しましょうか?社内のどこに置きますか?
・・・もう悪夢ですね。
日本全国の優秀なデータ分析者が同じような不毛な作業を強いられる現状は日本経済にとって大損害だと思います。
ここ数年でAPIやJSON形式での大規模なデータ共有が増えており、これはデータエンジニアやデータサイエンティストにとっては好ましい状況です。しかし、データ分析者の大半にとっては、残念ながら扱いやすい形式とは言えません。
最近『○○の民主化』と良く耳にするようになりましたが、『データの民主化』にはほど遠い状況です。
さすがにこのような状況では利活用が増えません。
#加工したオープンデータを共有することにした
もっと使いやすいものが共有されればいいのに、と嘆いたところですぐに何かが変わる訳ではありません。
truestarは顧客サービスの中でオープンデータを取り扱う機会があります。
ならばtruestarが加工した、汎用的に使える中間段階のデータを共有すれば皆がラクになるではないか、ということで思い切って無料共有することにしました。サービスの付加価値はそもそも前処理ではなく、データ分析や可視化だった訳で、共有したところで減るものではないのです。
データ分析に携わる我々自身にとって、最初からこの形だったら有難いな、と思う形でデータ共有を行うことを念頭に、Prepper Open Data Bankというサービスを始めました。このサービスはクラウドDWH(データウェアハウス)のSnowflake上にあるデータマーケットプレイスで無料共有しています。
#国勢調査、国土数値情報、気象庁のデータを加工して共有
商用・二次利用可能なデータを前提とし、データ分析で良く使われるオープンデータとして
- 国勢調査
- 国土数値情報
- 気象庁の気象データ
をピックアップし、既に公開し始めています。
国勢調査は主だった人口統計量を中心に、2021年11月30日に公開された令和2年(2020年)国勢調査の確定版データも既に含まれています。都道府県、市区町村、町丁目、それぞれの粒度でデータを共有しています。(※町丁目は本記事投稿時点で最新の国勢調査が公開されていません。)
国土数値情報は、行政区域(ポリゴン)、駅(ポイント・ポリライン)、路線(ポリライン)、将来推計人口(メッシュ)を取り扱っています。
気象庁の気象データは、月次と日次それぞれの過去の実績データです。日次は二日前までのデータが毎朝更新されています。全国に約1300箇所(約17km間隔)設置されている観測所(主にアメダス)のデータを下のサイトから収集してます。
なお、共有データの一覧はGoogleスプレッドシートで公開していますので、詳細を確認したい方はご参照下さい。
これらのデータは、Snowflakeのアカウントがあれば誰でも無料で自由に使うことができます。(要申請ではあります。)
#なぜSnowflake上での共有なのか
これにはいくつか理由があります。
###データ共有のための基盤が最初から揃っていた
もともとtruestarでデータ共有基盤を用意することを考えていましたが、それを行ってしまうと、データ分析者のデータ入手先がまた増えてしまいます。
また、アメリカを中心に既にSnowflakeのデータ共有基盤が浸透し始めており、先月時点で150以上のデータプロバイダーにより約900点のデータセットがマーケットプレイスで展開されています。この流れは日本にも必ず来ると思っており、その際、強いポータルサイトに集約されているほうがデータ分析者にとって圧倒的に利便性が高いと考えています。
###分析ツールやクラウドベンダーにロックインしない
データもインフラも分析ツールも、データ分析者のビジネスにおいては手段であって目的ではありません。従って、データ分析者それぞれの環境に合わせやすい形でないと結局使えない、使われないサービスになります。
Snowflakeはグローバルスタンダードとなっているクラウドサービスの一つであり、三大クラウドサービスであるAWS、MS Azure、GCPの全てがサポート対象となっています。
また、SnowflakeはArcGIS、Alteryx、Tableau、Excel、Power BI、DataRobotなど、主要な分析ツールともシームレスに連携が可能です。
###管理コストが超低い
これはSnowflakeのウリでもありますが、単純にUI/UXが優れていることは勿論として、簡単かつ安全にデータ共有が可能な仕組みが備わっていることが大きいです。
管理コスト(お金だけでなく時間も)が高いと、Prepper Open Data Bankを無料でサービス展開することは正直なところ経営的に難しかったと思います。
なお、どうしてもオンプレ等で使いたい場合には、定期的にSnowflakeからダウンロードして自社環境上にコピー(レプリケーション)する仕組みを作ることはできます。
Prepper Open Data Bankはクリエイティブ・コモンズのCC BY 4.0での共有になっており、制約の緩い利用規約下で利活用が可能です。
#トライアルキャンペーン実施中
Prepper Open Data Bankはデータ代無料ですが、基本的にSnowflakeのアカウントが必要になります。
クラウドサービスとの契約には社内申請や承認の壁がある方も数多くいらっしゃると思います。
そんな方々のために、Prepper Open Data BankとSnowflakeの両方を手軽にトライアル可能なキャンペーンを行っています。
Twitterで『#PODB使ってみたい』とつぶやくだけで、約20分後にtruestarが契約するSnowflake環境上に読み取り専用アカウントが発行される仕組みになっており、期間限定でトライアルが可能になっています。
Snowflakeとの契約も不要、Twitterも捨て垢でOKなので手軽にお試しいただけると思います。
詳しくはこちらのページでご案内しています。
データの前処理無く、位置に紐づくオープンデータを用いたデータ分析がいきなり始められます。
下はTableauから接続した画面です。このような可視化は3分で可能になります。
ちなみにこのキャンペーンの裏側ではMatillionを使ってTweetデータを自動収集してSnowflake上に蓄積し、そのデータに対してSnowflake上で処理を行い、読み取り専用アカウントを自動発行する仕組みが動いています。
この内容を細かく説明するほうがQiitaっぽい気もしますが、今回は位置情報データの敷居を下げることが目的ということでどうかご容赦下さい。
これまで位置に紐づくオープンデータを使ったことがない分析者だけでなく、従来から自分自身で前処理をしていた分析者に対しても、ちょっとした感動をお届けできると幸いです。
それではまた。