この投稿は、LODチャレンジ2022への作品エントリーにために作成しました。
以前作成した以下の「Linked Data API Navi」の使い方についての投稿と内容が重複する部分がありますが、こちらは作成経緯、サイト構成等や今後についての話が主になります。
記事を読んでいただいて利用してみたいと思う方がいましたら、以下の記事も参照いただければ嬉しいです。
Linked Data API Navi について
https://uedayou.net/ldapinavi/
Linked Data API Naviは、日本語コンテンツが公開されているSPARQLエンドポイントを集約、検索できるWeb API検索サイトです。
特徴
Linked Data API Navi には以下の特徴があります。
- オープンライセンスでかつ日本語コンテンツを持つ無料のSPARQLエンドポイントを検索可能
- RDFデータとして公開されるオープンデータをサイト独自のSPARQLエンドポイントとして公開
- 独自SPARQLエンドポイントについては全データを検索可能なSPARQLクエリを自動生成
- LODチャレンジ受賞データセットの集約
- メンテナンスフリーでサスティナブルなサイト構成
1. オープンライセンスでかつ日本語コンテンツを持つ無料のSPARQLエンドポイントを検索可能
現在、多くのSPARQLエンドポイントが公開されています。
百科事典の DBpedia、知識ベースの Wikidata など網羅的のデータを提供するもの、日本政府では、統計LOD、gBizInfo(旧法人インフォ)、地方自治体でも、埼玉県、横浜市、大阪市、文化芸術分野では、ジャパンサーチ、メディア芸術データベース、など様々なデータが検索、取得可能です。
ただし、日本国内においてはこれらを一元的に調べるサイトはないように思いました。
Linked Data API Navi ではこれらのサイトを検索、ブラウジングが可能にしました。
それぞれのデータセットには、データ種別を示すタグを追加しています。
タグをクリックするとタグ検索が可能です。
また、CORS(Cross-Origin Resource Sharing)に対応するSPARQLエンドポイントについては、このサイト上からSPARQLクエリを発行してデータを直接検索することもできます。
2. RDFデータとして公開されるオープンデータをサイト独自のSPARQLエンドポイントとして公開
SPARQLエンドポイントはRDF用のWeb APIですが、SPARQLエンドポイントとしては公開されていないオープンライセンスなRDFデータが数多く公開されています。
Linked Data API Navi では、サイト独自SPARQLエンドポイントとしてこれらを公開して上述のエンドポイントと同じくサイト内で検索できるようにしました。
LinkData との連携
オープンデータをRDFデータとして公開する日本最大のWebサイトにLinkDataがあります。
LinkData は 表形式のデータをRDFデータに半自動で変換するCMS機能があり、CSVやExcelなど様々なファイル形式でデータをホスティングもしてくれるサイトです。
10年以上も安定的にオープンデータを提供するサイトであり、個人だけでなく数多くの地方自治体がこの基盤の上でオープンデータを公開しています。
このサイトのオープンライセンス(パブリックドメイン、CC-BYなど)のRDFデータを収集して、SPARQLエンドポイントを個別に構築して提供しています。
LinkData の更新に応じて定期的に新規SPARQLエンドポイント、SPARQLエンドポイントの更新を行っていますので、LinkData 内でオープンライセンスに設定してRDFデータを公開すると、Linked Data API Navi にも自動的にSPARQLエンドポイントが構築されます。
サイト登録時に、データセットの提供元(自治体関係か)や特徴に応じて(データセット内に DBpedia や Wikidata への参照、緯度経度を持つかどうかなど)自動的にタグを割り振るようにしています。これにより検索されやすいように工夫を行っています。
RDF変換したオープンデータ
LinkData 以外に、RDFとしては公開されてはいないオープンデータをいくつか自身でRDF化して上記のLinkDataの自動構築方法を利用してSPARQLエンドポイントを公開しています。
2022年10月現在公開されるデータは以下になります。
これらは、CSV等で公開されたものをRDF化しています。
RDF化したデータは GitHub で公開するとともに、GitHub Actions を利用して リポジトリへの push をトリガーにSPARQLエンドポイントを自動構築、更新して、Linked Data API Navi 上に反映されるようになっています。
3. 独自SPARQLエンドポイントについては全データを検索可能なSPARQLクエリを自動生成
上述の独自SPARQLエンドポイントは、SPARQLエンドポイントのみ公開すると内部で使われているネームスペース や プロパティ構造が不明で利用者にとってどうすれば目的のデータを抽出できるクエリを作成できるかわからない状態になります。
また、それらを個別に手動でリスト作成するのは LinkData 自体のデータセット数が約1万あり物理的に不可能です。
そこで、変換に用いたRDFファイルを解析して、自動的に使用されているネームスペース、プロパティリストを作成するようにしました。
それに伴い、そのネームスペース、プロパティリストを使用して、自動的にデータ全体を検索できる SPARQLクエリも自動生成して、それを初期クエリとしてフォームに追加しています。
このクエリを元にすればデータの絞り込み等かなり容易になると思います。
4. LODチャレンジ受賞データセットの集約
現在公開中のSPARQLエンドポイントには、過去LODチャレンジでデータセットとして受賞経験のあるものが複数あります。
Linked Data API Navi では、これらエンドポイントに LODチャレンジ タグを追加しました。
また、LinkData にも多数の受賞データセットがあり、これらを元に作成したSPARQLエンドポイントにも LODチャレンジ タグを付与しています。
これにより、質の高いデータセットを持つSPARQLエンドポイントを探すことが可能となっています。
https://uedayou.net/ldapinavi/?query=LODチャレンジ
個別のSPARQLエンドポイントのページでは、受賞したこと、受賞年度を表示しています。
5. メンテナンスフリーでサスティナブルなサイト構成
SPARQLエンドポイントの構築は、Virtuoso や Apache Jena Fuseki 等を利用することが一般的だと思います。
これらは、サーバインスタンスを用意してインストールや設定、その後の保守など運用にかかるコストが比較的大きい印象です。
独自で提供するSPARQLエンドポイントは、極力運用コストを減らすためにクラウドサービス上でリクエスト毎に逐次SPARQLクエリを実行するプログラムを開発して利用しています。
VirtuosoやFusekiのような常駐サービスではなく常にサーバインスタンスを用意する必要がないため低コストで、かつ完全なリードオンリーエンドポイントのため障害に強い構成になっています。
また、上記のSPARQLエンドポイントのようなサーバサイドでの実行が必要なもの以外は、SPA(Single Page Application) により極力ブラウザ側の実装で処理するようにしました(例えば、検索やページ遷移等)。
その他、クラウドサービス上のマネージドサービスをできるだけ活用し、PaaS(Platform as a Service)により構築しています。
これにより、保守に手がかからず、出来るだけ低コストで、個人でも長く運用し続けられる、持続可能な構成を目指しました。
Linked Data API Navi は 主に Amazon Web Service(AWS) 上に構築していますが、AWSでしか実現できないようなマネージドサービスの利用は控え、Google Cloud Platform(GCP) や Microsoft Azure、Oracle Cloud など他社クラウドサービスでの構成も可能なように設計には配慮しました。
サイト構成は以下のようになります。
今後について
Linked Data API Navi は、SPARQL や Linked Open Data 技術の活用の促進のため、出来るだけ長くサービスを続けられたらと思います。
今後、このサービスをさらに活用してもらえるようにいろいろと改善していくつもりです。
例えば以下のようなことを考えています。
- Linked Data API Navi の SPARQLエンドポイントを利用した活用事例の作成
- RDF化されたオープンデータの収集とSPARQLエンドポイントの作成、サイト登録
- GitHub を利用した RDF化されたオープンデータを募り、自動的にサイト登録される仕組み作り
3番目については、既に RDFファイルの GitHub への push により、SPARQLエンドポイントを自動生成される仕組みがあり、これを利用することにより、第三者のRDFファイルの Pull Request をもらうことで自動的に SPARQLエンドポイントを作ることができる状態にはなっています。
この仕組みを発展させ、サイト登録に必要なメタデータも登録してもらうことにより、自動生成されたSPARQLエンドポイントをサイトに自動登録、検索対象にできるようにし、エコシステム化を進めていきます。
オープンソースへの貢献
Linked Data API Navi は サイト構成上、セキュリティ面などもあり、全てのソースコードを公開することは難しいですが、サイト内で使用する要素技術は GitHub にコード公開、また、技術資料を Qiita や Zenn に投稿していますので、興味があれば参照ください。