この記事は、ナレッジグラフアドベントカレンダー2025・12月22日の記事です。
この記事では、私が共同研究のなかで開発してきた教育向けLODデータセットについて、「なぜそれを作り始めたのか」という開発の経緯に焦点を当て、データセット開発の出発点と、URI設計に至るまでの背景を振り返ります。
最初に簡単にまとめると、教科書LOD・学習指導要領LOD・単元LODという3つの教育向けLODデータセットを開発・提供しています(単元LODは、教科書のなかの「学習内容のまとまり」を扱うデータセットで、教科書LODと同一名前空間で提供しています)。
時系列をたどると、以下のように9年前にさかのぼります:
- 教科書LODの開発開始:2016年7月 → 2017年1月に初版をリリース
- 学習指導要領LODの開発開始:2021年11月 → 2021年12月に初版をリリース
- 単元LODの開発開始:2021年9月 → 2022年8月に初版をリリース
最初に着手したのが、教科書データの構造化でした。その理由は非常に単純で、教科書そのものを厳密に構造化したかったからではありません。他の用途で開発しようとしていたデータセットの基礎として、参照できる教科書データを先に用意しておきたかった、というのが実際の動機でした。
当時、研究室の学生さんのプロジェクトとして、「漢詩作品」のメタデータを記述したデータセットを構築しようと議論していました。その過程で、もし教科書のまとまったデータセットがあれば、それを参照しながら、教科書に掲載されている「漢詩作品」だけに限定したデータセットに絞って開発できるのではないか、という点に気づきました1。
同時に、共同研究者を通じて国立教育政策研究所教科書図書館からライセンスフリーの教科書書誌情報を機械可読形式(TSV; タブ区切りテキスト)で入手できるということがわかり、それをもとにLOD化プロジェクトを始めようとなったのでした。
当時の打合せ記録をたどると、教科書の情報をLOD化しようと正式に決断したのは、2016年7月6日(水)でした。この日は、FRBR&RDA勉強会(現在はデータモデル勉強会と改称)を夜19時から予定しており、その準備も兼ねて、勉強会前の時間帯に共同研究者と集まって研究の議論を行っていました。
その場で、先の漢詩作品データセットを作るにあたっては、まず教科書情報のデータセットがあることを前提にすれば、実際の教科書を見ながら漢詩作品のデータ収集と、LODとしてのデータセット構築を同時並行で進められる、という話になりました。LODデータセットであれば、URIの設計方針をあらかじめ決めて共有しておくことで、分担作業もしやすくなります。この点は大きな利点だと考えました。
こうした背景から、次に検討したのがURI設計です。その際に立てた問いが、「教科書を識別可能な単位とは何か?」でした。教科書は、文部科学省による検定制度のもとで一律に公表されており、学校種別・検定年・教科書記号・教科書番号の4点の情報があれば識別できることを、実際に発行されている教科書をみながら確かめました。
特に重要だったのは、これら4点の情報が教科書本体に必ず印字されている点です(下図)。図書館などで現物調査を行いながら、簡単にメモできる識別情報であることは、紙の資料を対象に一次情報を収集するという作業形態に非常によく合っていました。そのため、これらの情報をそのまま用いた「名前型」の識別子をURIとして採用することにしました。
例えば以下のようなURIを付与できます:https://w3id.org/jp-textbook/高等学校/2006/世B/013 (2006年検定の高等学校・世界史B・東京書籍発行の教科書)
現在、国際会議や英語論文などで教科書LODデータセットを紹介するたびに、日本語文字列を含むURI設計の難点について指摘を受けることがあります。その都度、利点と欠点の両面について議論するのですが、振り返ってみると、日本語文字列を使わずに、連番やUUIDなどの「数字型」識別子を採用した場合、紙の教科書を確認しながらその場で識別子を拾い出す作業が、かなりやりづらくなっていたはずです。こうした現場での作業を前提としていたことが、当時の設計判断の背景にありました。
なお、国際会議などでは、このような設計に至った経緯まで詳しく説明する時間が取れないことがほとんどです。そのため、日本語文字列を使ったURIには欠点も利点もあるよね、という一般的な議論にとどめることが多くなっています。本記事では、そうした場では省略せざるを得なかった設計の背景を、記録として残しておきたいと考え、紹介しました。
参考文献
なお、教科書LODを含む教育向けLODデータセットについては、教科書LODの解説ページや、以下の記事や論文などで報告していますので、詳細を知りたい方はそちらをご覧ください。
- 江草由佳, 高久雅生: 教科書Linked Open Data(LOD)の構築と公開. 情報の科学と技術, vol.68, no.7, pp.361-367 (2018-07) https://doi.org/10.18919/jkg.68.7_361
- 高久雅生ほか: デジタルアーカイブの教育利用促進を目指したメタデータLOD基盤に関する研究. 情報知識学会第33回年次大会, つくば, 情報知識学会誌, vol.35, no.2, pp.262-277 (2025-05) https://doi.org/10.2964/jsik_2025_025
-
のちに、この漢詩作品データセット開発の成果は以下の論文などで報告しました。
叢艶, 江草由佳, 高久雅生: 唐詩情報のLinked Open Data化とその利活用の試み. 第39回セマンティックウェブとオントロジー研究会, 東京, 6p. (2016-09) https://doi.org/10.11517/jsaisigtwo.2016.SWO-039_07 ↩
