国外流出したからこそ自由に使えるようになったところに歴史の巡り合わせを感じさせる浮世絵の画像ですが、海外からの贈り物ということでクリスマスの記事とさせて頂きました。
こうした画像は以前からある程度のビジネスになっているようで、画像を体系的に整理したり、解説を付けたりした上で商用のプリントサービスなどが行われています。オープンでないものも混じっているようですが、まぁオープンデータを活用したビジネスモデルのひとつとも言えます。
ウィキメディア・コモンズにもこうした画像は大量にあるのですが、なかなか整理が追いついていないのは先日の記事でも申し上げた通りです。そうした中、浮世絵に比較的多いシリーズ物がいくつか整備されているのに気が付き、そのうち歌川広重の名所江戸百景をウィキデータにインポートしてみることにしました。連番が付いているとつい揃えたくなるのが人情 ;)
ウィキデータへのインポートについて
ウィキデータに登録されるのは基本的に事実情報で、CC0の下で公開されています。インポートの対象として、自分が権利を保有しているか、元々CC0もしくはパブリックドメインが宣言されているものは問題ありませんが、それ以外は注意して扱う必要があります。
単純な事実情報の並びには著作権は及ばないとされますが、グローバルなプロジェクトとしてはEUのデータベース権も視野に入れなければなりません。今回は各国のウィキペディアやウィキメディア・コモンズの事実情報(画像そのものではなく画像へのURLなどそのメタデータ)を自ら集めて一覧にするため、問題なくインポートできます。詳しくはWikidata:データ寄贈をご参照ください。
QuickStatemens2について
[QuickStatemens2](https://tools.wmflabs.org/quickstatements/#/)はウィキデータへの一括インポートツールの定番でQS2と略されます。タブやカンマ区切りのデータに対応しているので、Google spread sheetやExcel上でデータを表形式で準備して、CSVの場合は文字列の囲みなど多少加工してからコピペで使うことができます。旧バージョンのQS1も稼働していますが、特別の事情がない限りQS2を使うと良いと思います。上の初期画面でログインして「バッチを新規作成」を選ぶと、インポートデータを貼り付ける画面となります。
本記事ではデータを貼り付けてから「CSVコマンドをインポート」を選んだ場合の操作を後述します。最下部にも「CSVコマンドをインポート」ボタンがありますが、こちらを選ぶとコマンド(CSVデータ)の記述方法が参照できます。ウィキデータ内にも説明記事があります。
インポート項目の整理
名所江戸百景についてはウィキペディアの日本語版、英語版、ウィキメディア・コモンズ、いずれもきっちり揃っているのでこれらを参照しつつ、まずスプレッドシート上でインポートする項目を整理します。
<人間に分かりやすい表現で整理>
シートの1行目はプロパティなどの日本語名称で、人間が見て分かるようにメモとして記述しています。インポート対象ではありません。
2行目はQS2が解釈できるようにするためのヘッダで、基本的にはLabel(ラベル)、description(説明)、P番号(プロパティ)、Q番号(項目)などを記述しますが、QS2の処理の都合上、番号以外の部分を多少書き換えます。カラムが横に多数並んでいますが、ウィキデータの項目としては最低限ラベルがひとつあれば登録でき、それ以外のカラムは分かる範囲で追加します。
3行目以下が実際の登録内容で、各行がウィキデータの1項目となります。
CSV形式への整形
- qid: 項目のQ番号ですが、これから新規作成しようとしているので空欄です。
- Lja: ラベル(日本語)。項目のタイトルに相当します。文字列型とは扱いが異なるので括り文字は不要です。
- Len: ラベル(英語)。今回、ウィキペディア英語版にも名所江戸百景の記事があるので、そこから英語の作品タイトルを利用します。文字列型とは扱いが異なるので括り文字は不要です。
- P1814: 読み仮名(P1814)というプロパティに作品タイトルの読み仮名をセットします。文字列型なので値の前後を"で括ります。
- P18: 画像(P18)というプロパティにウィキメディア・コモンズ上の画像ファイル名をセットします。文字列型なので値の前後を"で括ります。なお、文字列内に,が含まれる場合はQS2でうまく処理されない(インポートが処理中のまま終わらない)ようなので、そのカラムをいったんインポート対象から外して後で手動で登録する必要があるようです。
- S143: プロパティの一種でプロパティとして記述した内容にさらに補足情報を追加するものとして「修飾子」があります。さらに「修飾子」の中には「出典」を表す特殊なものがあり、ここで使っている「移入元」(P143)はデータのインポート元を表します。通常のプロパティと区別するために先頭のPをSに書き換えます。項目型なので文字列ではなく、項目のQ番号をウィキデータの検索窓などで探してセットします。
- P143: 所蔵者(P143)というプロパティにこの作品の所蔵美術館を記述します。項目型なので所蔵美術館の項目のQ番号をセットします。
- P571: 設立(P571)というプロパティにこの作品の作成日付をセットします。日付型です。分かっている範囲で年まで(例:+1857-00-00T00:00:00Z/9)、年月まで(例:+1857-12-00T00:00:00Z/10)とそれぞれ記述します。年は4桁、月と日は必ず2桁でセットします。最後の数字で精度を区別します。Google spread sheetに入力する際は「+」は計算式と判断されてしまうので、先頭に'を付けてエスケープします。
- Dja: この項目の日本語の説明欄です。文字列型とは扱いが異なるので括り文字は不要です。
- Den: この項目の英語の説明欄です。文字列型とは扱いが異なるので括り文字は不要です。
- P31: この項目の分類(P31)をセットします。項目型なので分類の項目のQ番号をセットします。
- P179: シリーズ(P179)というプロパティにシリーズ名をセットします。項目型なのでシリーズ名の項目のQ番号をセットします。
- qal1545: シリーズに情報を追加する修飾子である系列内の序列(P1545)というプロパティに、作品の連番をセットします。文字列型なので値の前後を"で括ります。修飾子は先頭のPをqalに置き換えます。
- P136: ジャンル(P136)というプロパティに作品のジャンルをセットします。項目型なのでジャンルの項目のQ番号をセットします。
- P170: 作者(P170)に「歌川広重」をセットします。項目型なので作者の項目のQ番号をセットします。
- P180: 題材(P180)に各作品で表現されている題材をセットします。項目型なので題材の項目のQ番号をセットします。
詳細な説明はCSVファイルの構文をご参照ください。
<最終的なCSVの整形>
文字列型は値の前後を引用符"で括りますが、QS2の制限事項(バグ?)で、値の前の括りは引用符を4つ""""とする必要があります。後ろの括りは1つ"で構いません。
Google spead sheetではCSV出力時に細かなハンドリングができないので、最終的なCSVの整形は表計算ソフトやテキストエディタなどで加工したほうが良いかもしれません。
(2018/12/27追記:値の前後の括りは前後とも引用符3つ"""がいちばん問題が無いようです)
トライ&エラー
試しに1件インポートしてみましょう。
QS2に貼り付けてみると、何やら怪しげな記述が1箇所「読み仮名(P1814)」プロパティの値でエラーが出ています。
これはタイプが「文字列」のプロパティの値が"で括られていないことを示しています。この状態でも「実行」はできますが、下記のようにエラーとなります。
改めて文字列を"で括ります。前述のように文字列の前に"を4つ、後に1つでそれぞれ挟みます。
修正して再インポートしてみます。
エラーが消えました。左下「実行」を押すと
状態が「DONE」となり、無事に登録完了です。
なお実行画面には「実行」と「バックグラウンドで実行」の2つのボタンがあり、後者を選ぶと画面とは非同期に登録処理が実行され、結果はQS2の画面で随時見ることができます。データの作り方に慣れてきて大量データを登録したい場合に使用すると良いでしょう。
インポート結果(作業中)
これから
まだウィキデータに一部インポートしただけですが、1週間~10日後くらいに美術作品の閲覧ツールであるCrotosでも検索できるようになるはずです。
「題材(P180)」プロパティの値は一括インポートでは季節だけをセットしましたが、ここには作品で表現されている題材をいくつでも入れられ、Crotosではこの題材で検索できます。欲しいイメージの画像を探すときのキーワードとして、インポートが終わったらウィキデータの項目編集画面から、作品の画像を眺めつつ手動で思いつく限り入れておくと良いと思います。(多数セットした例:水道橋駿河台)
また、ウィキメディア・コモンズ上には名所江戸百景以外にもシリーズ物で画像が整備されているものがいくつかあります。
よろしければ冬休みの工作にインポートいかがですか。メリークリスマス。