intro
かつてテーブルデータ(レコードデータなど)の名寄せ(record linkage, Entity Resolution, Deduplication)タスクの
公開データセットを探すことがあったのでりました。しかし、意外とたどり着くまで大変でした。
後続の方が探すことで苦労しないように無いようにまとめておきます。
需要は期待していない・・・。
あと著者は専門家ではないので、調査不足の可能性は大いにあります。
名寄せ(record linkage, Entity Resolution, Deduplication)タスクの研究で性能を測るデータセット
ぶっちゃけ画像認識におけるImageNet/CIFAR-10のように、
多くの論文で共通して使われている標準的なベンチマークデータが存在していません。
そのため研究で性能を測るためには以下のようなデータを使います
-
公開データセット
実レコードをぼやかしたり、Webページをスクレイプすることによって作られたデータセットです。
ありがたいことにいくつかの限られた研究グループが公開してくれています。
特に近年Wisconsin-Madison大学のAnHai's GroupによるMagellan Projectが
The 784 Data Setsなどの色々な公開データセットを作ってくれたおかけで、
データ量も種類が増えました。
のちのセクションでリストを上げます。 -
非公開の実際の医学統計データや社内データ
特に医学統計・公衆衛生の論文だと多いのですが、著者の属する組織しかアクセスできないデータが使われることがあります。例えば、最近出されたstate of the artをうたっているneural entity resolutionの論文でも、
社内に存在する研究者のデータベースを使っています。
ぼくのかんがえたさいきょうのデータセットやめちくりー -
機械的にミスを挿入し生成した架空のデータ
研究したいけどアクセスできるところにそんな都合のいいデータセットないよって場合は、
機械的に生成しミスを挿入した架空のデータを生成します。
例えば、この正解率100%をうたっているcomplete linkage clusteringの論文でも
そういったデータセットが使われています。
そりゃ正解が分かっていて数文字ミスをわざと入れれば、編集距離を使うと正解率高いのは当たり前では・・・
正直統計的学習を使う手法の場合、ベンチマークデータとして適切かは疑問です。 -
自分で作る
地道にスクレイプするなりクロールして頑張ります。
ちなみに、record linkageやdeduplicationは精度の高いラベル付けが非常に大変です。
公開ベンチマーク データ
リアルデータから作られたラベル済みデータセットのリストです。
-
DBLP-ACM
文献データベースDBLP data on public (venues 130, puplications 2,618, authors 3,319)とACM Digital Library (venues 128, publication 2,294, authors 3,547)のデータセット。
初出 MOMA - A Mapping-based Object Matching System
-
DBLP-Scholar
文献データベースDBLP data on public (venues 130, puplications 2,618, authors 3, 319)とGoogle Scholar (publicaiton 64,263, authors 81,296)のデータセット。
初出 MOMA - A Mapping-based Object Matching System
-
Amazon-GoogleProducts
amazonのapiから取得した商品リスト(1,363)とかつてgoogle-baseのapiから取得したリスト(3,226)のデータセット。
初出 Evaluation of entity resolution approaches on real-world match problems
-
AbtBuy
online retailersのAbt.com(1,081)とBuy.com(1,092)の名寄せデータセット。
初出 Evaluation of entity resolution approaches on real-world match problems
-
Cora
Coraという研究論文のサーチエンジンをもとにしたデータ。
5カラムの2191件の引用リスト。305件のコンピュータサイエンスの論文に紐づく。
blocking済み。
初出
A. K.McCallum, K. Nigam, and L. Ungar. Efficient cluster- ing of high-dimensional data sets with application to refer- ence matching. In Proceedings of KDD-2000.
-
SecondString Set
14種類のsingle fieldのデータセット。SecondStringというパッケージで使われている。
record linkageというよりは、単純な曖昧文字列マッチ向き。
-
Restaurant
Fodor'sという旅行ガイドとZagat'sというレストランガイドのレストランリスト。
初出
Sheila Tejada, Craig A. Knoblock, and Steven Minton. Learning object identification rules for information integration. Information Systems, 26(8):607–633, 2001.
-
DBLP
研究文献DBのDeduplicationのデータセット。
オリジナルのダンプはこちらDBLP
初出
A Duplicate Detection Benchmark for XML (and Relational) Data. Weis, Melanie; Naumann, Felix; Brosy, Franziska (2005).
-
Epidemiological Cancer Registry of North Rhine-Westphalia 'Epidemiologisches Krebsregister'
2005から2008までのドイツのstate of North Rhine-Westphaliaに登録されたガン患者のデータ。
10,0000 件のレコードで、IDに置き換えられて匿名化されています。
すでに編集距離の計算やブロッキングも行われており、 元の生のデータにはアクセスできないようです。そのため、使える手法がかなり限定されます。
-
The 784 Data Sets
一つのデータセットではなく、上記のAnHai's Groupが授業で作らせた24のデータセット。 データソースはスクレイプしたWebPageです。
ビールからアニメまで様々なデータセットがあります。
テーブルのレコード数は3000~50000件以上と様々です。包括的なEntity Matchingライブラリを提供するMagellan projectの過程で作られました。
11. [Walmart-Amazon (The Corleone Data Sets)](https://sites.google.com/site/anhaidgroup/useful-stuff/data) ウォルマート(2554件)とAmazon(22074件)の商品リストのデータセット。 上記と同様Magellan Projectにより作成。
12. [Million Songs Data](https://sites.google.com/site/anhaidgroup/useful-stuff/data) 曲のdeduplicationデータセット (100,0000件)。 上記と同様Magellan Projectにより作成。
13. [Citeseer-DBLP](https://sites.google.com/site/anhaidgroup/useful-stuff/data) 1,2と同様の文献リストのデータセット(Citeseer 1823978件, DBLP 2512927件) 上記と同様Magellan Projectにより作成。
14. [Miscellaneous Data Sets (IMDB - OMDB)](https://sites.google.com/site/anhaidgroup/useful-stuff/data) 映画のレビューIMDB(1132262件)とOMDB(2302426件)のデータセット。 上記と同様Magellan Projectにより作成。
まとめ
多くの公開データセットのおかげで、統計・機械学習的アプローチの性能比較も手軽にやりやすくなりました。
特にDNNアプローチができるデータサイズのものが出てきたのは大きいです。
また、初学者が簡単に試せるようにもなりました。
既存のアプローチももっと定量的・包括的に比較されていくことでしょう。
ただ、できれば中国語や日本語のデータセットも整備されていけばと思います。
そろそろkaggleにこないだろうか・・・