LoginSignup
4
8

More than 3 years have passed since last update.

おすすめ!関係データベース(RDB)のオープンデータリポジトリ

Last updated at Posted at 2020-09-02

意外に少ないし、探すのが大変?RDBのオープンデータ

データ分析の学習やアルゴリズムの検証をする時に、オープンデータを良く用います。
例えば、データの種類によって、以下のようなものが挙げられます。
テーブルデータ
- アイリスのデータセット
- タイタニック号の生存者のデータセット

画像データ
- CIFAR
- coco

自然言語
- Yelpレビュー
- 青空文庫形態素解析データ集

幅広くビジネスをとらえた時に、もっともメジャーに取り扱うことが多いのはやはりテーブル形式のデータでしょう。比較的にデータが整備されている大きい企業ではデータベースがあり、リレーショナルデータベース形式のデータが普段使われると思います。しかし、私自身最初はこのような形式のオープンデータを探すのに苦労しました。
この記事では、非常に便利なリレーショナルデータベース形式になっているオープンデータのリポジトリであるRELATIONAL DATASET REPOSITORYをご紹介します。
このリポジトリを介して知ったのですが、データベースのエンジニアにとっては結構有名なデータセットもそこそこカバーされています。

RELATIONAL DATASET REPOSITORYの特徴

リレーショナルデータベースのサンプルデータであれば、MicrosoftがAdventureWorksという小売り系のサンプルデータベースがあり、顧客情報、注文履歴、注文明細等と非常にリアルなもので、データベース設計時のお手本にする目的でも公開されているようです。
ですが、このデータを使おうとするならば、Microsoftの製品のSQL Server Management Studioを使うのが一般的で、別のデータセットになれば別のセットアップが必要になり非常に不便です。
同時に、データセットを探す側にとっては、データセットの検索や利用をする際に条件が統一されていないことがほとんどです。

このような不便を解消してくれたのが、RELATIONAL DATASET REPOSITORYで、以下のような特徴があります。

  • エンタープライズのデータベースと同様リレーショナルデータベース(RDB)形式になっている
  • 機械学習の予測タスクに即したターゲットが定義できるデータセットになっている
  • データサイズ、テーブル数、データの関連分野、予測タスクの種類、データモデル等豊富なメタ情報を用いて、ほしいデータセットを探すことができる
  • 異なる出展元が作成しているデータベースのデータセットをMySQL Workbenchですべて操作できるようなっている image.png image.png

使用法

実際の使用法は非常に簡単で、
1. 検索条件でデータを絞り込む
2. MySQL Workbenchをインストールし、サイト内の各データセットの詳細ページにある指示に従ってデータベースに接続する
上記2ステップを踏めば、MySQL workbenchで直接データベースをたたくことができ、CSVやSQLダンプでデータダウンロードが可能です。

英語になっているため、日本ではあまり知られてないようですが、ぜひおすすめしたいオープンデータセットです。みなさんもぜひ使ってみて頂けたらと思います。

参考情報

4
8
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
8