13
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

Google Dataset Searchでデータセットを検索する

Posted at

はじめに

Google Dataset Searchデータセットを検索する方法について紹介します。

使い方

検索したいデータセットのキーワードを入力して、検索を実行します。
今回は、例として記載されている coronavirus covid-19 で試しました。
左側に見つかったデータセットのリスト、右側に選択されたデータセットの詳細が表示されています。
スクリーンショット 2020-08-14 17.14.592.png

検索結果の絞り込み

Google Dataset Searchでは検索条件を簡単に指定することができます。
スクリーンショット 2020-08-14 17.14.59.png
検索条件に指定可能な項目は以下の通りです。

検索条件 指定可能な項目 OR/AND
最終更新日 すべて、1ヶ月以内、1年以内、過去3年間 OR
ダウンロード形式 すべて、表、ドキュメント、画像、テキスト、アーカイブ、その他 AND
ライセンス すべて、営利目的での利用可、非営利目的での利用可 OR
トピック すべて、人文科学、社会科学、生命科学、農業、自然科学、地球科学、コンピューティング、建築・都市計画、工学 AND
無料

業務でよく使いそうなのは、ダウンロード形式のアーカイブライセンスの営利目的での利用可無料あたりでしょうか。
これらの検索条件を指定した場合の結果は以下になります。
検索条件に合致するデータセットを公開しているサイトが表示されるので、データセットを公開しているサイトへ移動してダウンロードすることができます。
スクリーンショット 2020-08-14 17.36.26.png
今回はkaggleで公開されているデータセットなので、kaggleのサイトへ移動してダウンロードします。
なお、ダウンロードするためにはkaggleのアカウント登録が必要でした。
(アカウント登録が必要かどうかは、データセットを公開しているサイトによって異なりそうです。)
スクリーンショット 2020-08-14 18.12.33.png

Google Data Searchで検索できるように、自分のデータセットを登録する

データセット検索へのデータセットの追加についての説明(英語) でデータセットの登録方法が説明されているので、このやり方で自分のデータセットを登録できそうです。
(特に登録する自分のデータセットがなかったため、試すことはできていません。)

Q: How do I add my dataset to Dataset Search?

If you have a web page that describes a dataset (or many such web pages), you need to do the following to have it included in Dataset Search:

  • [Required] Add metadata in schema.org to each page that describes a dataset (documentation).
  • Verify that the markup produces structured data that you expect in Structured Data Testing Tool
  • If you have multiple pages, create a sitemap and add that sitemap to your Search Console

If the page has been crawled but after a week or two you still don't see it in Dataset Search, please file a bug using the "Feedback" button.

https://support.google.com/webmasters/thread/1960710

DeepL翻訳。

データセットを記述したWebページ(またはそのようなWebページが多数ある)がある場合、それをDataset Searchに含めるには以下のことを行う必要があります。

  • [必須] データセットを記述する各ページにschema.orgのメタデータを追加します (documentation)。
  • マークアップがStructured Data Testing Toolで期待する構造化データを生成することを検証する。
  • 複数のページがある場合はサイトマップを作成し、そのサイトマップをSearch Consoleに追加します。

ページがクロールされたにもかかわらず、1〜2週間経ってもDataset Searchに表示されない場合は、"Feedback "ボタンを使ってバグを報告してください。

最後に

今回はパスポートの認識精度をテストしたくてデータセットを探していたのですが、残念ながらGoogle Dataset Searchでは見つかりませんでした :innocent:
もし、いいデータセットを知っている人がいたら、ぜひコメントで教えてください :hand_splayed:

参考情報

13
7
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
13
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?