WikidataのSPARQLクエリを用いたMAP生成
以前に紹介した 「Wikidataを用いた経路検索リンク付きMAPの作成」 を誰でも簡単に行えるように,Webサービス化しました.
- サービスの実行は https://wd-map.hozo.jp/ から
- ソースコードは https://github.com/oecu-kozaki-lab/WikidataMapVIS にて公開
この作業に伴って,以前に作成した 「経路検索リンク付きのMAP生成用のSPARQLクエリ」 を改善したので,その詳細を解説します.
改善点のみ解説しますので,以前の記事を未読の方は,こちらを先にお読み下さい.
SPARQLクエリの改善点
今回,SPARQLクエリの主な改善点は,以下2つです.
- 経路検索を「名称」でなく「緯度経度」で行うように変更
- MAP上に複数の点に分かれて表示されるデータを1つにまとめるように修正
それぞれについて,クエリ例を示しつつ解説します.
「緯度経度」を用いた経路検索用のSPARQLクエリ
Googleマップを用いた経路検索は,
例)https://www.google.com/maps/dir/現在地/住吉神社
のように,「名称」を用いて目的地を指定することができます.
しかし,「住吉神社」をWikidataで検索すると34件(2024/10/14時点)見つかり,上記の名称を用いた経路検索では,「福岡市にある一の宮の『住吉神社』の経路を調べるつもりが,現在地からの最寄りの住吉神社への経路が見つかってしまいます.
この問題を避けるために,
例)https://www.google.com/maps/dir/現在地/33.58586244,130.41362643
のような,目的地の「緯度経度」を用いた経路検索を行うURLを使用することにしました.
このようなURLをWikidataへのSPARQLクエリから取得するには,Wikidataにおける位置情報の表現形式(例:Point(130.41362643 33.58586244))から,「緯度,経度」という形式への変換が必要です.
この変換を行い,「緯度経度」を用いた経路検索を行うURLを取得するSPARQLが下記の 「クエリ例1」 です.
SELECT ?item ?itemLabel ?loc
(URI(CONCAT("https://www.google.com/maps/dir/現在地/",
(strafter((REPLACE(str(?loc),"\\)",""))," ")) , ",",
strbefore((REPLACE(str(?loc),"Point\\(",""))," "))
) AS ?map)
WHERE {
?item wdt:P31/wdt:P279* wd:Q1656379. #分類の指定
?item wdt:P625 ?loc. #位置情報の取得
SERVICE wikibase:label { bd:serviceParam wikibase:language "ja". }
}
このSPARQLクエリでは, ?loc として得られたWikidataにおける位置情報を,
- str(?loc) で文字列に変換し,
- REPLACE(str(?loc),"\\)","") で,末尾の ")" を削除し,
- strafter(REPLACE(str(?loc),"\\)","")," ") で,半角スペース(" ")よりも 「後ろの文字列」を取り出すことで,「緯度の数値」 を取得しています.
- 経度に対しても同様にして, REPLACE(str(?loc),"Point\\(","") で,先頭の "Point(" を削除し,
- strbefore(REPLACE(str(?loc),"Point\\(","")," ") で,半角スペース(" ")よりも 「前の文字列」を取り出すことで,「経度の数値」 を取得しています.
という処理で「緯度,経度」という形式への変換した上で,CONCAT(...) で "https://www.google.com/maps/dir/現在地/" の末尾に結合し,URI(...) でURIの形式に変換することで,目的地の「緯度経度」を用いた経路検索を行うURLを得ています.
MAP上に複数の点に分かれて表示されるデータを1つにまとめる方法
以前に作成したSPARQLクエリで作成したマップにおいて,例えば札幌市にある「北海道神宮」の位置をクリックすると,下記のように6つの点に分かれて表示されます.
これは,「北海道神宮」のデータを検索した結果が,
のように,住所(addr),ウェブサイト(web)に複数データがあるため,それらを組み合わせた複数行だけ得られる ことが原因です.
このようなデータを
- 「データのID(item),名称(itemLabel),位置情報(loc)」 が同一のものは1つの行だけ取得する
ように変更したSPARQLクエリが下記の 「クエリ例2」 です.
SELECT ?item ?itemLabel ?loc
(SAMPLE(?addr) AS ?address) (SAMPLE(?web) AS ?w)
(SAMPLE(?img) AS ?image) (SAMPLE(?kana) AS ?nameKana)
WHERE {
?item rdfs:label "北海道神宮"@ja .
?item wdt:P625 ?loc. #位置情報の取得
OPTIONAL{?item wdt:P1814 ?kana.}
OPTIONAL{?item wdt:P18 ?img.}
OPTIONAL{?item wdt:P6375 ?addr.}
OPTIONAL{?item wdt:P856 ?web.}
SERVICE wikibase:label { bd:serviceParam wikibase:language "ja". }
}
GROUP BY ?item ?itemLabel ?loc
このSPARQLクエリでは,
- GROUP BY ?item ?itemLabel ?loc で 「データのID(item),名称(itemLabel),位置情報(loc)」が同一のデータで 「グループ化」 を行い
- 複数のデータが得られる可能性のある「住所(addr),ウェブサイト(web),...」などについては,SELECT句で 「(SAMPLE(?addr) AS ?address)」のように,「複数データから1つのみを取り出して,別の変数に代入(ASで代入先を指定)」する
ことで,
のように, 「データのID(item),名称(itemLabel),位置情報(loc)」が同一のものに対して1つの行だけ データを取得できます.
最終的なSPARQLクエリ
上記の改善点ふまえ,最終的に 「経路検索リンク付きのMAPの作成」に使用したSPARQLクエリ は下記の通りです.
#defaultView:Map{"hide":["?loc"]}
SELECT ?item ?itemLabel ?loc
(URI(CONCAT("https://kgs.hozo.jp/sample/details.html?key=",str(?item))) AS ?detail)
("■Wikidataでの定義を見る" AS ?detailTitle)
(URI(CONCAT("https://www.google.com/maps/dir/現在地/",
(strafter((REPLACE(str(?loc),"\\)",""))," ")) , ",",
strbefore((REPLACE(str(?loc),"Point\\(",""))," "))
) AS ?map)
("■経路検索" AS ?mapTitle)
(SAMPLE(?addr) AS ?address)(SAMPLE(?web) AS ?w) (SAMPLE(?img) AS ?image)
(CONCAT("(",SAMPLE(?kana),")") AS ?nameKana)
(?itemLabel AS ?name)
WHERE {
?item wdt:P31/wdt:P279* wd:Q1656379. #分類の指定
?item wdt:P625 ?loc. #位置情報の取得
?item wdt:P17 wd:Q17.
OPTIONAL{?item wdt:P1814 ?kana.}
OPTIONAL{?item wdt:P18 ?img.}
OPTIONAL{?item wdt:P6375 ?addr.FILTER(lang(?addr)="ja")}
OPTIONAL{?item wdt:P856 ?web.}
SERVICE wikibase:label { bd:serviceParam wikibase:language "ja". }
}
GROUP BY ?item ?itemLabel ?loc
このSPARQLクエリでは,前述の改善点に加え,
- MAPをクリックした際に表示されるデータの順番,表示内容を見やすく調整
- Wikidata上の定義を見るためのリンクを,該当データの「Wikidataのページ」に加え,「データの内容を日本語で見やすく可視化したページ」を用意
- データ数が多くなりすぎて「クエリのタイムアウト」が発生するのを避けるために,「日本のデータに限定(
?item wdt:P17 wd:Q17.
)」
といった工夫をしています.
おわりに
今回のようなMAP作成は,もっと単純なSPARQLクエリで取得したデータを使用し,表示内容の詳細はJavaScriptなどのプログラミング言語で処理することでも実現することが可能です.
それに対して今回は,
- 極力,SPARRQLのみで,できるだけ処理を完結させる
というアプローチを取りました.
その結果,SPARQLクエリは少し(かなり?)複雑にはなりましたが,基本的な部分については,それ以上のプログラムでの処理をせずに,目的とするMAPの生成が実現できました.
Wikidataをはじめとする知識グラフ(ナレッジグラフ)の活用方法の1つして,何らかの参考になれば幸いです.