この記事は情報検索・検索技術 Advent Calendar 2022の21日目の記事です。また、ナレッジグラフ Advent Calendar 2022の21日目の記事です。
検索に関わることなら何でもOKということで、知識グラフ(ナレッジグラフ: KG)を対象とした検索について初歩的な記事を書かせていただきます。すでにこういった記事はたくさんあるとは思いますが、情報が埋もれやすい昨今ですので、一部最新情報を含めて改めてまとめてみました。急いで書きなぐったので誤字脱字等ご容赦ください。。。
対象読者
・KG初心者
・情報検索でKGを扱ってみたい人
目次
ナレッジグラフとは
ここ数年ずっと米ガートナー社のハイプ・サイクル for AIで過度な期待のピーク期に居座っており、バズワード的に浸透していますが、古くからある、意味ネットワーク、オントロジーなどの知識表現と本質的にはかわりません(もちろん個々に細かな特徴はあります)。W3C標準のRDFを指していたり、もっと緩いCSV程度のものを指していることもあり混沌としています。
2012年のGoogle Knowledge Graphをきっかけに単語が広まり、明確な定義がされないまま広まっていきましたが、いくつかの論文(Ehrlinger et al. 2016, Hogan et al. 2022)で定義をしています。国内では、3年前にセマンティックウェブとオントロジー研究会で議論しています(知識グラフの定義についての議論)。Qiitaでも3年前に@MeguruMokkeさんがよく調べてくださっていたのを見つけました(Knowledge Graph とはなにか)。
最近では今年出版されたHoganらの定義が最も無難かなと思います。簡単に訳したものがこちらです。
実世界の知識を蓄積し、伝達することを目的とした「データのグラフ」であり、そのノードは関心のあるエンティティを表し、エッジはこれらのエンティティの間の様々な関係を表す。
その「データのグラフ」はグラフベースのデータモデルに準拠し、エッジラベル付き有向グラフ、異種グラフ、プロパティグラフなどがある。
この記事では、このナレッジグラフのデータモデルとして特に<subject, predicate, object>の三つ組でエンティティの関係性を表現するResource Description Framework (RDF)を扱います。
RDFに関する初歩的な説明は下記の私のスライドをご覧いただけますと幸いです。
下記はナレッジグラフ推論チャレンジ【実社会版】技術勉強会で紹介したスライドです。ちなみにその他のスライドもこちらのGitHubリポジトリで公開しています。
この記事でも少し解説すると、RDFではすべての情報を主語、述語、目的語の三つ組(トリプルと呼ぶ)で表現します。RDFはもともとWeb上でのデータの共有を意図しているので、全てのリソースに一意なUniform Resource Identifier (URI)を付与します。
- リソース
- 主語や目的語として使われるもの。一意なURIでグラフのノードに相当。
- プロパティ
- 述語として使われるもの。グラフのエッジに相当。
- リテラル
- 数値や文字列等。目的語としてしか使用できず、URIを持たない。
代表的なナレッジグラフ
すでに様々なナレッジグラフが誰でも利用できるように公開されており、特にある条件を満たしているものはLinked Open Data (LOD)と呼ばれ、高い利便性と再利用性を有しています。
-
DBpedia
- 主にWikipediaのInfoboxを基に構築されたLOD。
-
DBpedia Japanese
- Wikipedia日本語版から構築されたDBpedia。
-
Wikidata
- データ版Wikipedia。データそのものをWikipediaのように編集することができる。
-
YAGO
- Yet Another Great Ontology。Wikipediaなどから構築された大規模オントロジー。
-
GeoNames
- 地名のLOD
-
LinkedGeoData
- OpenStreetMapを基に構築された地理空間情報のLOD。
-
Bio2RDF
- ライフサイエンス分野の老舗LOD
-
ConceptNet
- 一般的な単語のLOD
-
ジャパンサーチ
- 日本のデジタルアーカイブ
その他名前を挙げだしたらきりがないので、興味のある方はLOD Cloudをご覧ください。こちらにあるものも登録に一定の基準が設定されているので、世の中に存在するLODの一部になります。
国内のLODはLinked Data API Naviによくまとめられています。
SPARQLを使った検索
だいぶ前置きが長くなってしまいましたが、ここからが本題の検索に関する説明です。
SPARQLはRDFデータを検索する際に使用するにクエリ言語で、関係データベースにおけるSQLに相当します。
SPARQLの基礎的な説明も下記の私のスライドをご覧いただけますと幸いです。
下記はナレッジグラフ推論チャレンジ【実社会版】技術勉強会で紹介したスライドなので、最後4スライドはこちらのデータセットを対象としたクエリです。
実例を見てもらったほうが早いと思うので、いくつか紹介します。
# トリプルを100件取得する
SELECT ?s ?p ?o
WHERE {
?s ?p ?o .
} LIMIT 100
こちらは、対象とするRDFデータから、主語?s(変数)、述語?p(変数)、目的語?o(変数)に当てはまるトリプルを検索し、各変数の値を100件まで取得するSPARQLクエリです。すなわち、全トリプルが該当し、そのうち100件を取得します。
それではもう少し複雑な例を見てみましょう。
DBpedia検索
# DBpedia内に含まれているアスリートの名前(日本語)と出生地(英語)を取得する
PREFIX dbo: <http://dbpedia.org/ontology/>
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
SELECT DISTINCT ?label ?dp_label WHERE {
?s rdf:type dbo:Athlete ; rdfs:label ?label .
OPTIONAL {?s dbo:birthPlace ?dp . ?dp rdfs:label ?dp_label . }
FILTER(LANG(?label)="ja")
FILTER(LANG(?dp_label)="en")
} limit 100
こちらは「DBpediaにあるアスリートの名前(日本語)と出生地(英語)を取得する」SPARQLクエリです。
ではDBpediaに対してSPARQLクエリを実行するにはどうしたらよいでしょうか?答えはSPARQLエンドポイントという検索窓口を使用します。
こちらにブラウザでアクセスすると、クエリを入力するテキストエリアが確認できます。
ここに上記のSPARQLを貼り付けて「Execute Query」ボタンを押下すると、結果を確認できるはずです。
実行結果を確認
プログラムからAPIとして使用するには、下記のパラメータを穴埋めしたURIをGETします。
https://dbpedia.org/sparql?query={SPARQLクエリのURIエンコード}&format={フォーマット}
フォーマットは
- text/html
- text/csv
- application/xml
- application/json
- ...
Wikidata検索
WikidataのSPARQLエンドポイントではサンプルクエリが用意されているため、SPARQLを書く上で参考になるでしょう。
左メニューのフォルダのアイコンから様々なSPARQLを試すことができます。
例えば猫の画像を取得するクエリはこちら。
#猫(画像付き)
#defaultView:ImageGrid
SELECT ?item ?itemLabel ?pic
WHERE
{
?item wdt:P31 wd:Q146 .
?item wdt:P18 ?pic
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en" }
}
レベルアップして初心者の域を超えてしまいますが、複数のLODを横断的に検索して結果取得するSPARQLクエリを実行することもできます。ただし、検索先のSPARQLエンドポイントがFederated Queryに対応している必要があります。
Wikidata:SPARQL query service/Federated queries
# イギリスの彫刻家をWikidataから検索し、その彫刻家の作品をジャパンサーチから検索する
PREFIX jps: <https://jpsearch.go.jp/term/property#>
SELECT DISTINCT ?name ?work_link ?work ?creatorLabel ?date
WITH {
SELECT ?creator WHERE {
VALUES ?citizenship {wd:Q145 wd:Q174193} . # UK, Britain & Ireland
?creator wdt:P6698 []; # Only get things with a Japan Search ID
wdt:P27 ?citizenship; wdt:P106 wd:Q1281618} # sculptors
} AS %creators
WHERE {
include %creators
SERVICE <https://jpsearch.go.jp/rdf/sparql/> {
?jps_creator owl:sameAs ?creator . # convert Wikidata ID to Japan Search ID
?work schema:creator ?jps_creator . # Works by this artist
OPTIONAL {?work schema:name ?name } # This will return separate names in English and Japanese names
OPTIONAL {?work schema:dateCreated ?date}
}
FILTER (lang(?name)="en") # Show only the English name
BIND(URI( REPLACE(STR(?work), "/data/", "/item/") ) AS ?work_link)
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
} ORDER BY ?date
ナレッジグラフ推論チャレンジ【実社会版】
せっかくなので、紹介したスライドの主題だったナレッジグラフ推論チャレンジ【実社会版】のSPARQLエンドポイントにもクエリを投げてみます。
「ナレッジグラフ推論チャレンジ【実社会版】」自体の説明資料はこちら。
-
http://kgrc4si.home.kg:7200/
- リポジトリはKGRC4SIv3を選択してください
このナレッジグラフは、仮想空間内での日常生活行動シミュレーションの動画データの内容を記しています。より詳細な説明はこちら。
このナレッジグラフから、キャラクターによく掴まれているオブジェクトを検索します。
# よく掴まれているオブジェクト
PREFIX ho: <http://www.owl-ontologies.com/VirtualHome.owl#>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX : <http://example.org/virtualhome2kg/ontology/>
PREFIX dcterms: <http://purl.org/dc/terms/>
PREFIX ac: <http://example.org/virtualhome2kg/ontology/action/>
select ?name (count(?object) AS ?count) where {
?objectClass rdfs:subClassOf :Object .
?object a ?objectClass ;
rdfs:label ?label ;
dcterms:identifier ?id .
?event ho:object ?object .
?event :action ac:grab .
BIND(concat(?label, ?id) AS ?name)
} group by ?object ?name order by desc(count(?object))
このように、LOD化されたナレッジグラフは基本的にSPARQLエンドポイントを設置しているため、SPARQLクエリを使用して欲しいデータを検索して取得できます。あとは自由自在にSPARQLをいじくり回して複雑な検索をかけてみるとよいでしょう。
本当は推論のところまで書きたかったですが、力尽きたのでここまでとさせていただきます。時間ができたら続編を書きたいと思います。
情報検索あるいはナレッジグラフに興味のある読者の皆様の何かの参考になりましたら幸いです。