2
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

WikimediaAdvent Calendar 2020

Day 10

コモンズとウィキデータで浮世絵を整理する

Last updated at Posted at 2020-12-09

- コモンズ利用のヒント4

前回はカテゴリページとファイルページそれぞれに対応するウィキデータ項目を作成して、テンプレート経由でコモンズ側からウィキデータの内容を参照して表示させてみました。今回はより構造化データらしい活用法を紹介します。

GLAM機関が所蔵する浮世絵は既にかなりの量(おそらく数万点から十数万点の単位)がコモンズ上に画像ファイルとして登録されています。そんな中、2020年4月に大英博物館から閲覧システムのリニューアルに伴って公開された作品のうち、歌川国芳の浮世絵が4000件ほどコモンズにアップロードされているのに気づきました。ウィキペディア日本語版によれば国芳の錦絵作品数は5300枚余とあるので数の上ではかなりの網羅率に見えますが、その時点ではほとんど分類、整理されていなかったため重複しているものや別の作者の作品も混じり、実際の網羅状況を把握することがかなり困難な状況でした。
そこで、ウィキデータ内に浮世絵データ整備のプロジェクトを立ち上げ、どの程度網羅されているのか可視化することに取り組んできました。まだ作業途中ではありますが、これまでにやってきたことを紹介します。

1 コモンズ側の整理

1.1 所蔵館ごとのカテゴリから作者別カテゴリへ

所蔵品を公開しているGLAM機関の作品については、専用プロジェクトの関係者や個人のウィキメディアンが一括して所蔵館ごとのカテゴリにアップロードしていることがよくあります。こうした画像ファイルの中には画像ファイルページやファイル名に作者が記載されていてもカテゴリとしての作者名が未登録のものが結構あります。まずはこれらの画像を見ながら、作者名が判別できるものについて作者名のカテゴリを追加しました。

1.2 作者別カテゴリ配下の整理

作者ごとの作品を整理する切り口にはいろいろありますが、様々な情報源からバラバラに登録された画像が並んでいるために分かりやすい基準で分類する必要があります。ここではウィキデータ流の分類法に沿ってできるだけ個人差が出にくい物理的な特徴による分類を中心にまず行いました。その結果、現状では以下のようになっています。

以下は他の方が作られたカテゴリで、作品のジャンルによる分類です。個人的には各作品は作者直下の階層構造から探しやすくするためにいずれかのカテゴリにひとつだけ所属する構造にしたかったので、所属先が複数になったりその判断に個人差が出てしまうジャンルごとのカテゴリは積極的に作るつもりはなかったのですが、まぁそういうカテゴリでの検索ニーズは確かにあるでしょう。

以下は以前からこの階層にあるカテゴリのうち、別の階層にまとめるべきシリーズ物のカテゴリや提供機関ごとのカテゴリなど、見直しが必要と思われるものです。大幅見直しは慎重にやる必要があるため整理は未着手です。

1.3 複数から成る作品をまとめる

作者の直下に整理した階層のうち、複数画像で構成される作品について(シリーズ)作品名をもとにしたカテゴリ名を作ってまとめます。

Print diptych by Utagawa Kuniyoshi‎は2枚組の作品です。作品名の無いものが多く未整備です。

Print triptych by Utagawa Kuniyoshi‎は3枚組の作品です。作品に記載のタイトルがあるものはそれを使い、長い作品説明文があるものはその先頭を切り取ってカテゴリ名、作品名としました。現時点で201件作られています。

Print series by Utagawa Kuniyoshi‎については作品に記載のシリーズ名をカテゴリ名、作品名としました。現時点で192件作られています。

2 ウィキデータ側の整理

上記で作成したカテゴリに対応するウィキデータ項目も作成しました。作成したものは以下のようなSPARQL記述で検索できます。

2.1 Listeriaによるチェックリストの作成

上記SPARQL以外にも、Listeriaというツールを使うと、より見やすい一覧表を手動/自動で作成でき、データ整備状況のチェックに使うことができます。こちらは実際の画面です。

データは設定した周期で定期的に自動更新され、さらに右上の「Manually update list」をクリックするといつでも手動で最新状態に更新できます。ウィキデータを整備している時にチェックリストとして使うと便利です。
編集モードで開くと以下のような内容が記述されています。

使い方の詳細はこちらを参照してください。

この中には「シリーズ総数」(揃物の総件数)と「アクセス」(全件揃った場合は「オープンアクセス」とする)という列があり、欠落している作品を探す手がかりになります。このようにどの作品を探せばよいかが可視化されていると具体的に探すべき作品が分かり、細切れの時間でも実行可能な小さなタスクに落とし込むことができます。

また、シリーズ物や3枚一組の作品をまとめておくことは整備作業のためだけでなく、浮世絵を探している人にとっても探しやすい見せ方ができます。

2.2 未揃いの作品を探してコモンズに登録してみる

2.2.1 未揃いのシリーズ物をひとつ選ぶ

チェックリストからシリーズ作品「夜参り八景」を選んでみます。八景なので作品総数はおそらく8でしょう。(中にはシリーズ名にある数と実際の作品数が合っていないものもあります)「一部自由」となっているので抜けている作品があることを示しています。

作品名をクリックするとこのシリーズに対応するウィキデータの画面に遷移します。

登録されているカテゴリ名をクリックするとリンクしているコモンズのカテゴリページが開きます。全8作品のうちちょうど半分の4作品が既に集められています。

個別のファイルページにカテゴリを登録する際に、ソートキーとしてカテゴリ名に続けて区切り名のパイプ文字「|」と並び替え用の文字を付けて登録すると、そのカテゴリ内ではファイル名に優先してこの文字の順に並べてくれます。個々に連番が振られている場合はその番号を、無ければ作品のタイトルなど識別できる文字列を使います。ここでは「Yomairi hakkei (Eight Views of Night Visiting) by Utagawa Kuniyoshi|Asakusa」と登録され、タイトルの順に並ぶようになっています。

これにより、作品の重複や抜けを探しやすくなります。

2.2.2 残りを探す

コモンズで受け入れ可能な浮世絵の画像を探すには、調べた範囲では、「ジャパンサーチ」と連携している「cultural.jp」がいちばん探しやすかったので以下そのやり方を紹介します。

2.2.2.1 検索キーワードを指定

cultural.jpの検索窓で「歌川国芳 夜参り八景」と入力して検索します。

すると2つのキーワードを認識して、ともに合致する作品を探してくれます。その際、漢字の新旧やカナ表記など、微妙に異なるものであっても近いもの(異なる文字数が少ないもの)順に結果を表示するような動きをしてくれるので、表記ゆれの多い浮世絵の作品名を検索する上では非常に便利です。

ここでは3,049件がヒットし、この例では33件目まで確かに目的とする画像が表示されました。ざっと見たところ、国立国会図書館デジタルコレクションにいくつかあるようです。

2.2.2.2 ひとつ選ぶ


「収録DBで開く」をクリックすると国立国会図書館デジタルコレクションの該当ページが開きます。「目次・巻号」タブを選ぶと全作品が揃っているようです。

2.2.3 コモンズに登録する

コモンズに未登録の作品だけを選んでも良いのですが、信頼できる情報源であり、既存の大英博物館などのものとは異なる刷りである可能性が高いため、8件すべてをコモンズに登録することにします。このあたりの操作手順は本シリーズひとつ目の記事を参照してください。
以下は登録が終わった状態です。

2.2.4 対応するウィキデータの値を修正

「(コモンズに収集済の)作品の部数」と「アクセス状態」を更新します。
(修正前)

(修正後)

2.2.5 チェックリストを確認

チェックリストを手動更新(Manually update list)すると、修正内容が反映され、シリーズ物がひとつ揃いました。

3 検索

別記事で紹介予定のコモンズ構造化プロジェクトの一貫で「Search media」というコモンズの新しい検索機能が開発中です。
この検索窓で検索キーワードを入力すると、それに対応するウィキデータ項目を探し、存在すればその項目に登録されたコモンズのカテゴリ名をもとにコモンズを検索します。
(初期画面)

(「夜参り八景」で検索)

カテゴリ名の完全一致検索だけではなく、部分一致検索や普通の文字列検索も併用しているようで最後の1件にノイズが混じっていますが、デフォルトでは関連性の高い順に表示されるので、最初の方にはかなり的確なものが表示されます。一般的な文字列による検索と比べて、結果の質が高いことがお分かり頂けると思います。

(画像をひとつ選んだ状態)

画像を選ぶと画面遷移せずに右側でプレビューできます。

4 最後に

データの整備にはある程度の手間が掛かりますが、誰かがいちど整備しておけばみんながその恩恵を受けられます。ウィキデータの浮世絵データ整備プロジェクトにはどなたでも作業に参加できますのでよろしければぜひどうぞ。

次回はコモンズ内部の構造化データについての記事を予定しています。

5 関連情報

関連記事

2
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?