はじめに
Google Dataset Searchでデータセットを検索する方法について紹介します。
使い方
検索したいデータセットのキーワードを入力して、検索を実行します。
今回は、例として記載されている coronavirus covid-19 で試しました。
左側に見つかったデータセットのリスト、右側に選択されたデータセットの詳細が表示されています。
検索結果の絞り込み
Google Dataset Searchでは検索条件を簡単に指定することができます。
検索条件に指定可能な項目は以下の通りです。
検索条件 | 指定可能な項目 | OR/AND |
---|---|---|
最終更新日 | すべて、1ヶ月以内、1年以内、過去3年間 | OR |
ダウンロード形式 | すべて、表、ドキュメント、画像、テキスト、アーカイブ、その他 | AND |
ライセンス | すべて、営利目的での利用可、非営利目的での利用可 | OR |
トピック | すべて、人文科学、社会科学、生命科学、農業、自然科学、地球科学、コンピューティング、建築・都市計画、工学 | AND |
無料 | ー | ー |
業務でよく使いそうなのは、ダウンロード形式のアーカイブ、ライセンスの営利目的での利用可、無料あたりでしょうか。
これらの検索条件を指定した場合の結果は以下になります。
検索条件に合致するデータセットを公開しているサイトが表示されるので、データセットを公開しているサイトへ移動してダウンロードすることができます。
今回はkaggleで公開されているデータセットなので、kaggleのサイトへ移動してダウンロードします。
なお、ダウンロードするためにはkaggleのアカウント登録が必要でした。
(アカウント登録が必要かどうかは、データセットを公開しているサイトによって異なりそうです。)
Google Data Searchで検索できるように、自分のデータセットを登録する
データセット検索へのデータセットの追加についての説明(英語) でデータセットの登録方法が説明されているので、このやり方で自分のデータセットを登録できそうです。
(特に登録する自分のデータセットがなかったため、試すことはできていません。)
Q: How do I add my dataset to Dataset Search?
If you have a web page that describes a dataset (or many such web pages), you need to do the following to have it included in Dataset Search:
- [Required] Add metadata in schema.org to each page that describes a dataset (documentation).
- Verify that the markup produces structured data that you expect in Structured Data Testing Tool
- If you have multiple pages, create a sitemap and add that sitemap to your Search Console
If the page has been crawled but after a week or two you still don't see it in Dataset Search, please file a bug using the "Feedback" button.
DeepL翻訳。
データセットを記述したWebページ(またはそのようなWebページが多数ある)がある場合、それをDataset Searchに含めるには以下のことを行う必要があります。
- [必須] データセットを記述する各ページにschema.orgのメタデータを追加します (documentation)。
- マークアップがStructured Data Testing Toolで期待する構造化データを生成することを検証する。
- 複数のページがある場合はサイトマップを作成し、そのサイトマップをSearch Consoleに追加します。
ページがクロールされたにもかかわらず、1〜2週間経ってもDataset Searchに表示されない場合は、"Feedback "ボタンを使ってバグを報告してください。
最後に
今回はパスポートの認識精度をテストしたくてデータセットを探していたのですが、残念ながらGoogle Dataset Searchでは見つかりませんでした
もし、いいデータセットを知っている人がいたら、ぜひコメントで教えてください