#はじめに
ラクスアドベントカレンダー16日目の担当はMasaKuです!
さて、今回の記事ですが、とある勉強会でオープンデータについて発表させていただくかも知れないので、この機会にしっかりと勉強しなければと思い、以下の書籍を中心に勉強しました。
今回はオープンデータとLinkedDataを利用するための技術の一つであるSPARQLについて書きたいと思います。
#オープンデータとは
国や地方公共団体や事業者が保有するデータを以下の定義で誰もがインターネット上で利用できるようにしたものです。
- 営利目的、非営利目的を問わず二次利用可能なルールが適用されたもの
- 機械判読に適したもの
- 無償で利用できるもの
要するに、クリエイティブ・コモンズ・ライセンスのCC0に該当するデータがオープンデータになります。
DATA.GO.JPという政府が管理しているサイトでは、データをカタログ化して公開されており、PDFやCSVなどの形式で公開されています。
#利用しやすいオープンデータ
とはいえ、単純にデータがインターネット上に公開されているだけでは、システムとして利用しやすいデータ形式とは言いにくいでしょう。
例えば、紙資料のスキャンデータをPDF形式で公開しているデータも、立派なオープンデータです。
しかし、システムと連携してデータを取得したりするには、高度な画像処理技術が必要になり、誰しもが扱いやすいデータ形式とは言えないのではないでしょうか。
Webの発明者であるティム・バーナーズ=リーは、オープンデータのための5つ星スキームを提案しています
★1 (どんな形式でも良いので) あなたのデータをオープンライセンスでWeb上に公開しましょう
★2 データを構造化データとして公開しましょう (例: 表のスキャン画像よりもExcel)
★3 非独占の形式を使いましょう (例: ExcelよりもCSV)
★4 物事を示すのにURIを使いましょう,そうすることで他の人々があなたのデータにリンクすることができます
★5 あなたのデータのコンテキストを提供するために他のデータへリンクしましょう
上記のスキームからもわかりますが、誰もが自由に使えるライセンスでWeb上に公開することも立派なオープンデータとなります。
しかし、オープンデータとしてデータを成長させていくには、「汎用的に利用可能な形式で、その他のデータとも連携できるようにする」を目指してデータを公開していくことが求められます。
#LinkedDataについて
それでは、5つ星オープンデータのスキームの中で★5相当のデータであるLinkedDataについて見ていきたいと思います。
LinkedDataは、RDF(Resource Description Framework)という統一のグラフデータモデルを利用して公開されているという特徴があります。
RDFの最も基本的な形式は「主語」「述語」「目的語」の形式で記載されたデータを定義することです。(なお、この形式を「トリプル」といいます)
例えば、「ラクス」という主語に対して「従業員数」という述語に「659」という目的語を設定すると以下のような形式になります。
そして、これをRDFで表現すると以下のようになります。
@prefix sample: <http://sample.org/resource/>.
@prefix sample-prop: <http://sample.org/property/>.
sample:ラクス sample-prop:従業員数 sample:659;
上記のように、キーワード対してプロパティを設定してデータを定義することができます。
ほかにも「ラクス」というキーワードに「拠点」というプロパティを設定すると「東京」「大阪」「名古屋」「福岡」という値が設定できます。
そして、新たに設定された「東京」というキーワードにも「人口」というプロパティを設定して、値を設定することもできます。
このようにデータを連結していくことで、特的のキーワードを起点としてどんどんほかのデータにつなげていくことができます。
上記のようにRDFで定義されたデータに対してSPARQLを用いて「ラクスの拠点は?」という問い合わせを行うことで、該当するデータを取得できるようになります。
ずいぶん前置きが長くなりましたが、RDF形式のデータから特定の値を取得する方法がSPARQLというクエリ言語なのです。
#SPARQLの基本
とにもかくにも、まずはクエリそのものを見ていきたいと思います。
今回は、日本語のWikipediaに掲載されているデータをRDFで定義して公開している「DBpedia Japanese」というRDBストアのSPARQLエンドポイントを利用したいと思います。
SPARQLのサンプルコードから実際にリソースを検索することができますので、直接実行してみるとわかりやすいかと思います。
以下のクエリは、DBpedia Japaneseから日本の国歌を取得するクエリです。
PREFIX dbp:<http://ja.dbpedia.org/resource/>
PREFIX dbp-prop:<http://ja.dbpedia.org/property/>
SELECT ?o
WHERE{
dbp:日本 dbp-prop:国歌 ?o.
}
お気づきの方もいらっしゃるかと思いますが、SPARQLによる問い合わせはSQL構文ともよく似ています。
そのため、SQLが理解できる方であればわかりやすいクエリ言語かと思います。
上記のクエリはWHERE条件に設定されたdbp:日本 dbp-prop:国歌 ?o.
という部分が重要です。
このクエリをRDFの「主語」「述語」「目的語」に分解すると、「主語」がdbp:日本
「述語」がdbp-prop:国歌
「目的語」が?o
となります。
今回のクエリでは目的語の箇所が検索対象となったため?o
を指定しました。
キーワードの頭文字に?もしくは$を記載すると、変数と認識され、検索条件に該当する値がセットされます。
これによって、「日本」の「国歌」に該当するデータが?o
に格納され、SELECT句に記載された?o
の箇所でデータを出力することができます。
なお、クエリの前半に記載されたPREFIX ~~~~
という部分はURIの省略記号の宣言です。
例えば、dbp:日本
と記載された箇所は実際にはhttp://ja.dbpedia.org/resource/日本
となっています。
PREFIXによる省略記号を用いたほうが、クエリがシンプルになるだけでなく、対象のキーワードが指しているものが想像しやすくなっていると思います。
#様々な例題
引き続き、DBpedia Japaneseを用いて様々なパターンでデータを取得してみたいと思います。
##例題1
###ドラえもんの作者の代表作をすべて取得
PREFIX dbp-ja:<http://ja.dbpedia.org/resource/>
PREFIX dbp-ja-prop:<http://ja.dbpedia.org/property/>
SELECT ?author, ?masterpiece
WHERE{
dbp-ja:ドラえもん dbp-ja-prop:作者 ?author.
?author dbp-ja-prop:代表作 ?masterpiece.
}
###解説
先ほど紹介した、「日本の国歌」を取得するSPARQLを少し応用した形です。
まず、WHERE句のdbp:ドラえもん dbp-prop:作者 ?author.
の箇所でドラえもんの作者をデータを変数に格納します。
そしてその変数を用いて?author dbp-prop:代表作 ?masterpiece.
を実行することにより、代表作の一覧を取得することができます。
日本人であれば、ドラえもんの作者が誰なのか、ということは想像しやすいでしょう。
しかし、作者がわからないような対象の場合は、まず作者を検索して、その検索結果から目的のクエリを発行する、というようなシーンで利用できそうです。
##例題2
###アメリカ合衆国というキーワードに関連するWikipediaの関連リンクを10件取得
PREFIX dbp-ja:<http://ja.dbpedia.org/resource/>
PREFIX dbp-owl:<http://dbpedia.org/ontology/>
SELECT ?wikiLink
WHERE{
dbp-ja:アメリカ合衆国 dbp-owl:wikiPageWikiLink ?wikiLink.
}
LIMIT 10
###解説
SQLでも利用可能なLIMIT句がSPARQLでも利用可能です。
ここで注目していただきたいのは、「目的語」の箇所で記述しているdbp-owl:wikiPageWikiLink
という箇所です。
wikiPagewikiLink
とは、その名のとおり、対象キーワードに関連するwikiページを定義するオントロジーです。
DBpedia Japaneseで「アメリカ合衆国」を検索すると、かなりの数の関連リンクが存在します。
大量の検索結果のうち、特定の件数だけを表示したい場合はLIMIT
を利用します。
なお、SQL同様、OFFSET
を利用することで指定した件数だけ飛ばしてデータを取得することもできます。
PREFIX dbp-ja:<http://ja.dbpedia.org/resource/>
PREFIX dbp-owl:<http://dbpedia.org/ontology/>
SELECT ?wikiLink
WHERE{
dbp-ja:アメリカ合衆国 dbp-owl:wikiPageWikiLink ?wikiLink.
}
LIMIT 10 OFFSET 10
定義元にアクセスすると、ほかにどのようなオントロジーが定義されているのかを確認することができます。
##例題3
###作成した作品数が多い順に監督名と作品数を表示
PREFIX dbp-owl:<http://dbpedia.org/ontology/>
SELECT ?director, COUNT(?director) AS ?count
WHERE{
?film dbp-owl:director ?director
}
GROUP BY ?director
ORDER BY DESC (?count)
###解説
こちらも、SQLでも利用可能なGROUP BY
, COUNT
, ORDER BY
がSPAEQLで利用可能です。
先ほど同様にDBpedia Japaneseからhttp://dbpedia.org/ontology/
でdirector
と定義されているデータを取得します。
その後、監督をGROUP BY
で集約した後、集約された件数を取得するためCOUNT
を実行します。
件数はORDER BY
で並べ替えもできます。
SQLと違ってORDER BY
で降順を設定する際の記載が少し違うところがポイントです。
※http://dbpedia.org/ontology/
にはMusicDirector
やTheatreDirector
などのオントロジーも存在しますが、DBpedia Japaneseでは定義されていないようです。
厳密に定義できるようになれば、より正確な情報を取得することができるようになるでしょう。
#おわりに
今回はDBpedia Japaneseを利用してSPARQLの実行方法について簡単にご説明しました。
ブラウザ上からSPARQLの実行結果を取得する場合、HTMLとして結果を取得するとクエリの実行結果が確認しやすいですが、SPARQLエンドポイントは基本的にWebAPIからアクセスされることを前提としているようです。
そのため、クエリの実行結果はXMLやJSON形式で取得することもできます。
URIにGETリクエストを送るだけでデータを取得することができるため、SPARQLの実行結果をJSONでデータを受け取り、ブラウザ側で処理する、なんてこともできるようです。
RDFストアを拡充して行くとともに、オープンデータを利用したWebアプリ開発が盛んになればもっと面白そうなことができるんじゃないかと少しワクワクしました。
以上です!
明日の投稿は、Misato Kiiさんです。
お楽しみに!