歴史
ウィキデータのプロジェクトはアレン人工知能研究所、ゴードン・アンド・ベティ・ムーア財団、グーグルの3団体から総額130万ユーロの寄付を受け、2012年10月30日にスタートしました。
グーグルは2010/7月、オープンな情報データベース「Freebase」を運営するMetawebを買収し「ナレッジ・グラフ」で利用してきましたが、2014年10月に「Freebase」のデータを全てウィキデータに移送し、「Freebase」プロジェクトを閉じました。
https://plus.google.com/109936836907132434202/posts/bu3z2wVqcQc
グーグルのDenny Vrandecicはウィキメディア・ドイツのメンバーであると同時にウィキデータのリーダーであり、2015年にウィキメディア財団の理事にもなっています。
2012年よりプロジェクトを牽引したドイツのウィキメディア・コミュニティは下記3段階での計画を立案、実施しました。
1.集中型の言語間リンク – 異なる言語の同じトピックのウィキペディア記事をリンク
2.全ウィキペディア向けの情報ボックス用の中心の場所の提供
3.ウィキデータ内のデータに基づく一覧記事の作成と更新
これにより、2013年3月には全世界のウィキペディアからウィキデータにつながり、それまでの全ての言語版のウィキペディア間で張られていたリンクが全てウィキデータで集中管理されるようになりました。
現在ウィキデータの項目数は2400万件以上、項目内の文は1億件以上となっています。
ウィキペディアからのインポートはもちろん、それ以外のソースからのインポート、ボットによる自動更新、コミュニティの手作業による更新などが行われています。
検索エンジンから見たウィキデータ
出資企業からも明らかですがこのウィキデータの構造化データには検索エンジン各社も注目しています。例えばグーグルのナレッジ・グラフのように検索エンジンがコンテンツそのものを(一部)公開しているのは広告をクリックするまでの滞在時間を長くする意図があるようです。これにウィキペディアからの情報が比較的多く使われていますが、ウィキデータに切り替えるとCC0なので制約なしに使え、クレジット表記も不要です。
(グーグルでの「松戸市」検索結果。右半分がナレッジ・グラフ)
マイクロソフトのBingも同じようなことをやっています。
(出典:マイクロソフトBing)
2015年にはロシアの検索エンジンYandexもウィキデータに投資したとの報も下記記事にあります。
ただし、誰でも編集できるデータには誤りやいたずらが混入するリスクは当然あります。これについてはオープンなデータのコミュニティでよくあることで、コミュニティ側は楽観視しているものの、ビジネス利用を考えている人たちにとっては懸念が払拭しきれていないようです。
上にある棒グラフではウィキデータの文の数が1億件に達したことを示していますが、その下半分の面積のオレンジ色の部分は出典が無い文を表しています。ウィキデータではできるだけ各文に出典を明記することが推奨されており、品質を上げる努力が行われています。
(出典:Unsourced, unreliable, and in your face forever: Wikidata, the future of online nonsense)