ウィキメディア・コモンズ(以下コモンズ)はウィキペディアと同じMediaWikiで動作していますが、そのメインコンテンツは文章ではなく画像などのメディアです。MediaWikiの標準的な検索機能は文字列やカテゴリによるもので、多言語の機構も単純に列挙するだけの仕組みであり、多様なメディアを効率的に検索するのにはあまり適していない状態でした。
これに対してウィキデータと同じWikibaseという拡張をコモンズに導入し、構造化したメタデータを付与し、様々な言語で機械が検索しやすい形にすることを目指しているのがコモンズ「構造化プロジェクト」です。(詳しくはCommons:構造化データを参照。)
1 構造化データ
構造化したメタデータとは具体的には下記3種類を指します
1.1 キャプション
ウィキデータでいう「ラベル」+「説明」に相当し、言語ごとに登録します。
1.2 題材
メディア(例えば画像)に描かれている対象物を人間の目で見ながらいくつでも登録できます。入力値はウィキデータの項目として存在している必要があります。修飾子も記述できます。中心的な題材があれば「顕著とマークする」を指定します。
1.3 題材以外の文
日付型など一部未対応のプロパティはありますが、基本的にウィキデータにあるプロパティ+値は全て登録可能です。絵画などであれば「所蔵者」や「ライセンス」などが対象となるでしょう。
2.ウィキデータとの関係
コモンズのメディアには、それ自身が単独でウィキペディアの独立記事となっているもの、複数記事で利用されているもの、カテゴリがウィキペディア記事に対応しているものなど、ウィキペディアとの対応関係はまちまちです。ウィキデータの項目もウィキペディアの記事から作られることが多いため、ほぼ同様です。そのため、ウィキデータ側で既に「題材」文を登録していたとしてもそれをそのまま使うことはせず、コモンズ側で新たに(ウィキデータの項目やプロパティを参照しながら)登録し直す形になっています。
3.できるようになったこと
開発はCommons talk:Structured dataでコミュニティのフィードバックを受けながら進めているため機能やスケジュールはわりとよく変わりますが、現状(2019/12/22時点)での到達点は以下の通りです。
3.1 開発チームによる本体機能
3.1.1 構造化データの登録
メディアのアップロード時の最後、もしくはメディアの閲覧ページで登録できます。
File:Würfelzucker -- 2018 -- 3564.jpg
「編集」ボタンから、キャプション(「ファイル情報」タブ)や題材その他の文(「構造化データ」タブ)を登録します。
3.1.2 構造化データによる検索
Help:Extension:WikibaseCirrusSearch/ja
コモンズの検索窓では構造化データによる検索機能が既に実装されています。「haswbstatement」キーワードは、指定されたプロパティを持つ文にある指定された値を持つ項目を返します。下記は題材(P180)としてスズメ(Q25968)が登録されている画像を検索している例です。
人間に使いやすいUI改善は今後行われていくと思います。
3.1.3 Computer-aided tagging
Computer-aided tagging
Google Cloud Visionを利用して画像内の題材を自動抽出して候補として表示し、最終的には人間の目で見て正しいものを選んで登録します。
モックアップ:
タグの候補
現在UIについてのフィードバックを受付中で、本番環境へはまだリリースされていません。
Feedback requests
3.2 サードパーティによる支援ツールなど
3.2.1 画像内の相対位置の登録
Wikidata Image Positions
元々はウィキデータに題材の位置を登録するためのツールでしたが、コモンズ用にも同じ機能が実装されました。
まずコモンズの画像ファイル名を指定します。
その画像に題材が登録されている場合は画面左下に表示されるので、それぞれ選んで
題材の位置を矩形で指定します。
該当位置にマウスカーソルが来ると枠線と名称が現れます。
また、この機能はコモンズのcommon.jsにこちらのユーザースクリプトを追記することで、コモンズ側からも実行できます。
追記するとコモンズで画像下部に「Add a Structured Data region」ボタンが現れ、これをクリックするとツール側に飛ぶので、上記と同様に各題材の領域を指定します。
指定が終わるとコモンズ上で該当位置にマウスカーソルを置くと黄色の枠線と題材の名称が表示されます。
3.2.2 構造化データ登録支援
ISA
コーディネータが作成する「キャンペーン」に沿って、表示される画像を見ながら構造化データを登録するものです。まだ開発途上で、現時点のUIは英語とフランス語だけに対応しています。
3.2.3 構造化データ一括登録ツール
AC/DC
構造化データ文のまとまりを一連のファイルに追加するツールです。この機能はコモンズの「個人設定」で有効化できます。
有効化すると左サイドのツールメニュー欄に「AC/DC」が現れます。
3.2.4 構造化データ一括登録ツール2
SDC
あるカテゴリ内のファイル群に対して一定数の構造化文を追加できます。
4 むすび
当初計画ではこのプロジェクトの期限は2019年いっぱいです。積み残しがある気はしますが、大枠では構造化データを登録・利用する基盤は整った状態です。私自身もコモンズで画像を探すことがよくあるので、今後は構造化データの登録を進めていきたいと思っています。ご興味ある方はぜひどうぞ。
次回はGLAMとの関わりなどを書く、、かもしれません。