Help us understand the problem. What is going on with this article?

おすすめ!関係データベース(RDB)のオープンデータリポジトリ

意外に少ないし、探すのが大変?RDBのオープンデータ

データ分析の学習やアルゴリズムの検証をする時に、オープンデータを良く用います。
例えば、データの種類によって、以下のようなものが挙げられます。
テーブルデータ
- アイリスのデータセット
- タイタニック号の生存者のデータセット

画像データ
- CIFAR
- coco

自然言語
- Yelpレビュー
- 青空文庫形態素解析データ集

幅広くビジネスをとらえた時に、もっともメジャーに取り扱うことが多いのはやはりテーブル形式のデータでしょう。比較的にデータが整備されている大きい企業ではデータベースがあり、リレーショナルデータベース形式のデータが普段使われると思います。しかし、私自身最初はこのような形式のオープンデータを探すのに苦労しました。
この記事では、非常に便利なリレーショナルデータベース形式になっているオープンデータのリポジトリであるRELATIONAL DATASET REPOSITORYをご紹介します。
このリポジトリを介して知ったのですが、データベースのエンジニアにとっては結構有名なデータセットもそこそこカバーされています。

RELATIONAL DATASET REPOSITORYの特徴

リレーショナルデータベースのサンプルデータであれば、MicrosoftがAdventureWorksという小売り系のサンプルデータベースがあり、顧客情報、注文履歴、注文明細等と非常にリアルなもので、データベース設計時のお手本にする目的でも公開されているようです。
ですが、このデータを使おうとするならば、Microsoftの製品のSQL Server Management Studioを使うのが一般的で、別のデータセットになれば別のセットアップが必要になり非常に不便です。
同時に、データセットを探す側にとっては、データセットの検索や利用をする際に条件が統一されていないことがほとんどです。

このような不便を解消してくれたのが、RELATIONAL DATASET REPOSITORYで、以下のような特徴があります。

  • エンタープライズのデータベースと同様リレーショナルデータベース(RDB)形式になっている
  • 機械学習の予測タスクに即したターゲットが定義できるデータセットになっている
  • データサイズ、テーブル数、データの関連分野、予測タスクの種類、データモデル等豊富なメタ情報を用いて、ほしいデータセットを探すことができる
  • 異なる出展元が作成しているデータベースのデータセットをMySQL Workbenchですべて操作できるようなっている image.png image.png

使用法

実際の使用法は非常に簡単で、
1. 検索条件でデータを絞り込む
2. MySQL Workbenchをインストールし、サイト内の各データセットの詳細ページにある指示に従ってデータベースに接続する
上記2ステップを踏めば、MySQL workbenchで直接データベースをたたくことができ、CSVやSQLダンプでデータダウンロードが可能です。

英語になっているため、日本ではあまり知られてないようですが、ぜひおすすめしたいオープンデータセットです。みなさんもぜひ使ってみて頂けたらと思います。

参考情報

ssl_ds_sps
光半導体物理院生→外資コンサル(4年半)→データサイエンティスト(今ここ) JDLA E資格 kaggle Expert 3 silver 3 bronze
http://make-life-intelligent.com/
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした