lod
opendata
bigdata
LinkedOpenData

入門 - オープンデータの状況まとめ

More than 1 year has passed since last update.

オープンデータとは?

 オープンデータとは、営利目的も含めた二次利用が可能な利用ルールで公開された機械判読に適した形式のデータです。ユーザーは、インターネットなどを通じてオープンデータを収集・分析することで、価値ある知識を形成します。例えば、図書館検索サイトカーリルでは、オープンデータとして全国の図書館の蔵書・貸し出し情報などを組み合わせて、全国6000以上の図書館のリアルタイムな貸出状況を検索できるサービスを提供しています。
 Tim Berners-Lee は、オープンデータの提供について、「5 Star Open Data(注1)」を定義し、データ形式を問わないデータの公開から始まり、最終段階ではオープンデータ同士がリンクしている状態になるという発展段階を示しました。
5-star-steps.png

オープンデータの普及状況

 では、どれくらいのオープンデータが普及しているのか?ですが、世界各国政府のオープンデータの普及状況といえば、Open Data Indexで確認できます。Open Data Index は、公共交通機関の運転時刻、政府の歳入・歳出、選挙結果などのオープンデータの公開に準じた次のようなランキングを公開しています。

国名 2013年 2014年
イギリス 1位 1位
デンマーク 2位 2位
フランス 12位 2位
ドイツ 11位 9位
イタリア 20位 25位

 欧州が上位にランキングされている状況を踏まえ、欧州各国政府のオープンデータ普及状況が分かるEuropean PSI Scoreboardを調べてみました。こちらの指標は、2013年4月から公開されている行政情報のスコアボードで、7つの観点と23の指標からEU各国のオープンデータ進捗度を評価しています。

国名 スコア
イギリス 585
スペイン 550
ギリシャ 520
オランダ 505
オーストリア 500
イタリア 485

 欧州におけるオープンデータの普及率が高い理由を調べてみたところ、次のような理由がありました。

OECD

 OECD において、2008 年に、情報・コンピューター・通信政策委員会(注2)が「公共データへの有効なアクセス及び利用の拡大に関する理事会勧告」(注3)を策定し、公共データをより広い範囲で効果的に活用するとともに新たな活用方法を生み出すため、インターネット等を通じたアクセス環境の整備、著作権の取扱いのルールの整備等への考慮を加盟各国に対して求めている。

EU

 EU においては、2003 年に「PSI 再利用に関する EU 指令」(注4)を策定し、「加盟国は、公的機関が保有する情報の再利用が可能な場合には、商業・非商業の目的を問わずこれらの情報が再利用可能であることを確保しなければならない」と規定している。2011 年には「欧州オープンデータ戦略」(注5)を策定し、EUのデータポータルの開設、「PSI 再利用に関する EU 指令」の改定案の提示、データ処理技術の研究開発のための支援等を行うこととしている。

IMF

 2011年5月初め、IMF 統計局と世界銀行の開発経済データグループは、統計データとメタデータ交換(SDMX)基準の導入の促進と拡大を狙い世界会議を共催した(注6)。会議には90カ国から200人を超える幹部クラスの政府関係者、統計学者、情報技術者が参加、SDMX 導入戦略を共有し、まだ SDMX を導入していない国家機関を対象とした能力強化ワークショップに参加した。この会議期間中に IMF は、主要国際指標(PGI)のウェブサイトからデータ表やチャートを表示するために SDMX 基準に依拠した新しいiPhoneとiPadのアプリの提供を始めた(注7)。

UN

 第46回国連統計委員会出張報告(注8)では、SDMX の開発・導入が大きく進展している状況が報告され、国際機関へのデータ提出に係る負担軽減等のため SDMX の導入が要請された。

 ついでながら、日本におけるオープンデータの状況は、Open Data Indexによると、19位でした。日本では、ネットワーク普及やモバイル多様化により、公共データのビジネス活用への期待が高まり、オープンデータ流通環境の整備が徐々に進んでいます。日本国政府は、オープンデータの目的(注9)として、①透明性・信頼性向上(行政の透明性の向上、行政への国民からの信頼性の向上)、②国民参加・官民協働推進(創意工夫を活かした公共サービスの迅速かつ効率的な提供、ニーズや価値観の多様化等への対応)、③経済活性化・行政効率化(我が国全体の経済活性化、国・地方公共団体の業務効率化、高度化)を掲げています。

国名 2013年 2014年
日本 27位 19位

オープンデータのユースケース

 政府や自治体などの公共機関が提供するオープンデータを活用することができれば、冒頭でご紹介した図書館検索サイトカーリルのようなサービス提供が可能になります。いくつかのユースケースをご紹介します。

メディカルサイエンス活用

 業界固有のメタデータを使って、各企業間のデータを整理することで新たな価値を生み出します。主にできることは、電子カルテの共有、遺伝子や薬品の成分などの分析です。コンセプトは、この論文のようなものになります。ポイントは、RDF(Resource Description Framework)クエリ言語と呼ばれるSPARQL言語でデータを検索/操作するという点です。

ソーシャルネットワーク分析活用

 事物の関係性の定量化することで特徴を抽出して、全体の傾向を把握する知識を形成します。たとえば、コミュニティ抽出、ランキング、探索アルゴリズムによって、構造的な特性(疎か密)、情報の流れ方、コミュニティの類似性・差異を判定、影響度の高い個人の特定が可能になります。

ロケーションインテリジェンス活用

 地域ごとの情報から特徴を抽出して、エリアマーケティング(出店判断)などを可能にする知識を形成します。例えば、統計GISの地理情報と、通行量調査、道路通行量調査、鉄道駅乗降客業種別入店率、等から、判別分析やハフモデルでの統計解析が可能になります。

オープンデータ活用のコツ

 オープンデータは、徐々に整備が進んでいる状況ですが、現時点、パブリックドメインのデータにバラツキがある状態なので、一部のデータは、人の手によって注意深く収集するほうが効率的と言えます。ビジネス上でのオープンデータ活用にどのようなロードマップを考えるべきか?という点については、例えば、企業側で内部データ整備する、さらにはデータを公開するときの課題対策が必要であり、少なくとも以下の点を理解した上でオープンデータ活用の取り組みを始めたいものです。

データソースをできるだけたくさん知っておくこと

 どのようなデータが、どこに存在するのかを知っていることで、ビジネスへの適用範囲が広がります。
データソースの例)
 データカタログサイト
 Open DATA METI Beta
 厚生労働省-疾病別患者数
 法務省-渡航目的別外国人数
 e-Stat 統計GIS
 BioPortal SPARQL
など

データフォーマットを知っておくこと

 データをリンクさせて使うことで情報としての価値を見出すためには、どのような形式で、どのようなインターフェイスなのかを知っていることで、ビジネスへの適用範囲が広がります。Tim Berners-Lee の 5 Star Open Dataで示す最終段階になれば、SPARQLなどのインターフェイスによって、データをリンクさせるといった高度な活用が可能になります。

何を立証したいのかを明らかにすること

 存在するかどうか分からないデータソースを探すのは時間がかかります。また、データフォーマットを合わせるのに膨大な時間を要するようでは、ビジネス競争力が低下します。したがって、立証したいことを明らかにできるか?解ける問題になっているか?を意識しておくことが大切です。

事例をたくさん保持すること

 オープンデータを活用することで、どのようなことが分かるのか?、それにはどのようなデータが必要で、解析手法はどのようなものか?を素早く理解するために、事例をたくさん保持することが大切です。ビジネスに関わる多くの人がデータ活用のプロフェッショナルではないので、事例はひらめきを与えるインプットになります。

注釈

注1 5 STAR OPEN DATA
注2 Committee for Information, Computer and Communications Policy
注3 OECD Recommendation of the Council for Enhanced Access and More Effective Use of Public Sector Information
注4 Directive on the re-use of public sector information
注5 Open Data Strategy for Europe
注6 IMF2012年度年次報告
注7 IMF Press Release No. 11/161
注8 第46回国連統計委員会出張報告
注9 平成24年7月4日 電子行政オープンデータ戦略