• 2
    いいね
  • 0
    コメント

ウィキデータの現状

ウィキペディアの言語間リンクの集中管理という当初の大きな目標は達成したものの、具体的なデータの整備という点ではまだまだこれからという段階だと思います。ウィキペディア/ウィキメディアからのインポート(移入)も定期的に行われてはいるものの、機械的に反映されるのはごく一部のデータで、多くのデータについては人間が目で見ながら転記していくという作業が大量に残されています。日本では、ドキュメント類の翻訳もまだまだ必要です。また日本ならではのプロパティとして例えば「読み仮名」というものがありますが、それ以外にも独自に必要なものはおそらく今後いろいろ出てくるでしょう。さらに個々のプロパティ以前に、行政区画の体系やお寺や神社などの概念的・組織的な階層構造など、日本独自の構造を持つものに対してどのようにグローバルな整合性をとりつつ整理してプロパティを割り当てるかといったあたり、これから議論が必要なものが多々ありそうです。

ごく私的な意見ですが、いましばらくはウィキデータの成果をそのまま活用するというよりも、実験的なプロジェクトに参加するつもりで、うまく使えればラッキーだし、趣旨に賛同してこのプロジェクトに協力したい人はそうする、といった距離感が良いのではないでしょうか。発展途上であるからこその面白みもあります。

項目にプロパティを追加する

ウィキデータを整備するためのキモになる部分だと言って良いと思いますが、項目にプロパティ(属性やカテゴリなど)を追加してその内容を充実させてみましょう。ここでいちばん問題になるのがどのようなプロパティがあって、そのどれを使うのが適切なのか、ということです。

プロパティの探し方

やり方はいくつかあり最初は結構難しいのですが :) 「上野公園」を例に探してみます。
上野公園についてのプロパティと値はどこにあるでしょうか?いちばん手軽に見つけられそうなのはウィキペディアですよね。もちろん、ウィキペディアで探しても良いですし、実際ウィキペディアからの移入(インポート)も多いのですが、ウィキペディアは二次資料を元にした三次資料なので、ウィキペディアからの移入分も含めその元になった資料からの出典表記に置きかえることが推奨されています。従って書籍や公式サイトなどに書かれているデータが見つけられるとベターです。(ウィキデータは主観や創作性を含まない事実情報のみを扱うため、ウィキペディアでいう「信頼できる情報源」とはやや違う部分もあるかもしれません。)

転記する際の著作権などの考え方について、ウィキデータのサイト上であまり詳細な記述は見つけられなかったのですが、基本的に事実情報たる個々のデータは著作物ではないという考えがベースになっていて、EU域内のデータベース権に対してはバルクでのインポートはしないという考え方のようです。(参考:ウィキデータと著作権

話を情報源に戻して、書籍はいま手元に無いのでまずはウェブ上でいちばんオフィシャルな情報ということで探してみると東京都が運営している「上野恩賜公園公式ホームページ」というサイトがありましたので、これを参照することにします。

上野恩賜公園公式ホームページ.png
(出典:上野恩賜公園公式ホームページ)

このページにある情報から、以下のような文(「プロパティ-値」のペア)の候補となりそうなものがピックアップできます。

1)公式サイト:http://www.kensetsu.metro.tokyo.jp/toubuk/ueno/index_top.html
2)施設管理者:上野恩賜公園管理所
3)twitterアカウント:uenon_uenopark
4)facebookアカウント:うえのん-1538878493030655
5)公式キャラクター:うえのん
6)所在地:東京都台東区上野公園・池之端三丁目
7)電話:03-3828-5644
8)FAX:03-3827-7752
9)E-mail:S8000426(at)section.metro.tokyo.jp *(at)を@に変えて送信してください
10)開園時間:午前5時~午後11時(時間外は立ち入り禁止)
<12月29日~1月3日 事務所業務休止します。>

これらを入力してみましょう。

1)「公式サイト」を入力してみる

ウィキデータのサイトでプロパティを検索する際には先頭に「p: 」を付けます。「p: 公式サイト」と入力して全文検索します。

p-search.png

見つかりました!幸先が良いですね。
「P  公式サイト」の検索結果   Wikidata.png

開いてみましょう。
公式サイト   Wikidata.png

確かに探していた「公式サイト」のプロパティです。画面下部のデータ型に「URL」とありますので該当URLを入力すれば良いことが分かります。
それでは「上野公園」の項目ページに行ってこの文を追加します。「公式サイト」の文がまだ存在していないことを確認した上で、文のいちばん下、右寄りにある「追加」をクリックします。
上野恩賜公園   Wikidata.png

文の追加モードになり、追加できそうなプロパティ候補が初期表示されます。
文の追加.png

ここで、「公式サイト」の文字とURLを入力して「保存」。

公式サイト.png

無事に追加されました。

公式サイト追加後.png
文には出典を付記しますが、検索エンジンによる検索結果をどのように出典として登録したら良いかはよくわからないのでスキップします。

2)「施設管理者」を入力してみる

「p  施設管理者」の検索結果   Wikidata.png

残念ながら見つかりません。施設を外して「p: 管理者」で探してみるとありました!

管理者   Wikidata.png
説明欄に「主題のものごと(たとえばインフラ)が機能するように維持している組織」とあり、内容も合っていますね。
ここでさらにその下の文のところに「参照」というプロパティがあります。これは「管理者」という主語についてもっと情報が得られるプロパティを指しており、その中に「運営者」というプロパティがあります。そのプロパティも見てみましょう。

運営者   Wikidata.png

説明欄に「このサービスまたは施設・設備を運営する組織」とあります。対象は公園を運営している組織なので、先ほどの「管理者」よりもこちらの方がより近い内容に思えます。プロパティは「運営者」とすることにします。

運営者入力.png

すると「上野恩賜公園管理所」という値の入力欄で「該当するものはありません」というエラーメッセージが出てきました。この欄には何らかの組織名を入力しますが、入力する組織名はウィキデータ内に既に項目として登録されている必要があります。
そこで項目の新規作成画面を開いてラベルと説明を入力して「作成」。

項目の新規作成_上野恩賜公園管理所.png

項目が作成されました。

上野恩賜公園管理所   Wikidata.png

先ほどの文追加画面に戻って組織名を再度入力すると、今度はエラーメッセージが出ずに「保存」することができました。

上野恩賜公園_文追加.png

これで文(主張)をひとつ登録できましたが、その主張に対する根拠として出典も付記します。文の下にある「出典を追加」をクリックします。

上野恩賜公園_運営者_出典_.png

出典のプロパティとしては例えば下記のようなものがありますが、ここでは「出典URL」と「閲覧日」を使います。
・出典(元にした書籍名)
・出典URL(元にしたウェブサイトURL)
・閲覧日(ウェブサイトの閲覧日)
・移入元(ウィキペディアなど)

上野恩賜公園_運営者_出典3.png

ふうっ。ひとつひとつ、結構手間が掛かります :)

3)「twitterアカウント」を入力してみる

「p: twitterアカウント」をプロパティ検索すると見つかりません。「p: twitter」だけで検索してみると「Twitterのユーザー名」というプロパティがあります。

「P  twitter」の検索結果   Wikidata.png

これで入力できます。

上野恩賜公園_twitter.png

プロパティの別名にも「twitterアカウント」を追加して後から同じキーワードで検索をした人が見つけやすいようにしておきます。

Twitterのユーザー名_修正.png

4)以下

以下は省略しますが、ご興味を持たれた方はプロパティの追加を試してみてください。ざっと見たところ、「開園時間」はまだプロパティが無さそうです。必要に思えるので、手続きを踏めばプロパティとして登録できるのではないかと思います。

ウィキデータの紹介#3 | ウィキデータの紹介#5