意外に少ないし、探すのが大変?RDBのオープンデータ
データ分析の学習やアルゴリズムの検証をする時に、オープンデータを良く用います。
例えば、データの種類によって、以下のようなものが挙げられます。
テーブルデータ
画像データ
自然言語
幅広くビジネスをとらえた時に、もっともメジャーに取り扱うことが多いのはやはりテーブル形式のデータでしょう。比較的にデータが整備されている大きい企業ではデータベースがあり、リレーショナルデータベース形式のデータが普段使われると思います。しかし、私自身最初はこのような形式のオープンデータを探すのに苦労しました。
この記事では、非常に便利なリレーショナルデータベース形式になっているオープンデータのリポジトリであるRELATIONAL DATASET REPOSITORYをご紹介します。
このリポジトリを介して知ったのですが、データベースのエンジニアにとっては結構有名なデータセットもそこそこカバーされています。
RELATIONAL DATASET REPOSITORYの特徴
リレーショナルデータベースのサンプルデータであれば、MicrosoftがAdventureWorksという小売り系のサンプルデータベースがあり、顧客情報、注文履歴、注文明細等と非常にリアルなもので、データベース設計時のお手本にする目的でも公開されているようです。
ですが、このデータを使おうとするならば、Microsoftの製品のSQL Server Management Studioを使うのが一般的で、別のデータセットになれば別のセットアップが必要になり非常に不便です。
同時に、データセットを探す側にとっては、データセットの検索や利用をする際に条件が統一されていないことがほとんどです。
このような不便を解消してくれたのが、RELATIONAL DATASET REPOSITORYで、以下のような特徴があります。
- エンタープライズのデータベースと同様リレーショナルデータベース(RDB)形式になっている
- 機械学習の予測タスクに即したターゲットが定義できるデータセットになっている
- データサイズ、テーブル数、データの関連分野、予測タスクの種類、データモデル等豊富なメタ情報を用いて、ほしいデータセットを探すことができる
- 異なる出展元が作成しているデータベースのデータセットをMySQL Workbenchですべて操作できるようなっている
使用法
実際の使用法は非常に簡単で、
- 検索条件でデータを絞り込む
- MySQL Workbenchをインストールし、サイト内の各データセットの詳細ページにある指示に従ってデータベースに接続する
上記2ステップを踏めば、MySQL workbenchで直接データベースをたたくことができ、CSVやSQLダンプでデータダウンロードが可能です。
英語になっているため、日本ではあまり知られてないようですが、ぜひおすすめしたいオープンデータセットです。みなさんもぜひ使ってみて頂けたらと思います。
#参考情報