Edited at

データ分析に必要なデータソース20選(無料で使える)

 データアナリストとして、データ分析をする際に、手元に質のいい情報とデータソースがないことがしばしばあります。今回は無料データソースを20個厳選してみました。もちろん、これだけじゃ足りません。ほかに何かお勧めのデータソースがあれば、コメントは大歓迎です。

一、政府の公開情報

 政府の公開しているデータ量がだいぶ増えているだけでなくて、データの質も向上してきています。日本政府は多く情報を公開しており、人口、経済、医療、観光、気候などのデータをウェブサイトで簡単に手に入れます。このデータを他の国の状況と比べるすることが多いため、いくつかのよく使われる国のデータプラットフォームを知る必要があります。

1.日本統計局:http://www.stat.go.jp/

2.米国政府の公開資料:https://www.data.gov/

3.英国国立データセンターhttps://data.gov.uk/

4.EU情報プラットフォーム:https://www.europeandataportal.eu/

5.中国国立データセンター:http://data.stats.gov.cn/

6.香港政府データセンター:https://data.gov.hk/ja/

7.台湾政府情報公開プラットフォーム:https://data.gov.tw/




データ可視化ツール




8.Googleで検索したくない場合は、以下のウェブサイトを使用することもできます。

 https://opendatainception.io/

 これは、世界各地に2,600を超えるオープンデータポータルを統合し、地図で検索できるナビゲーションサイトです。




2018110701.png




データ可視化ツール

二、国際機関の統計データ


9.経済協力開発機構(OECD)データベース:https://data.oecd.org/

 各国の人口、税金、輸出入、経済状況か、グローバル経済状況などの経済データは、国やデータ別に検索することができます。 一度に複数の国のデータを比較したい場合、各国のデータプラットフォームをいちいち検索するよりも、OECDに着手するほうは手間が省けます。




データ可視化ツール




10.世界銀行の公開情報:https://data.worldbank.org/

 気候、融資、経済、教育、人口などの情報は非常に全面的で、ダウンロードすることができます。




データ可視化ツール




11.世界保健機関:http://apps.who.int/gho/data/node.home

 ここでヘルスケアについての情報を入手できます。 近年、AI医療の発展に伴って、予防接種、病気の前処理、薬物、栄養などに関するデータが増加しています。WHOは最新の情報を幅広く提供しています。




データ可視化ツール




 そのほか、アメリカ航空宇宙局(NASA)もデータを公開しています。必要に応じて検索してください。

https://data.nasa.gov/




データ可視化ツール






三、企業/プラットフォームデータベース

12.github:https://github.com/awesomedata/awesome-public-datasets

 この有名なプラットフォームがよく知られると思っています。 農業、気候、経済、教育、エネルギー、金融…いかなる情報を網羅するといえます。

 以下に一部のデータベースのディレクトリを示します。




データ可視化ツール




13.Google BigQuery公開データセット:https://cloud.google.com/bigquery/public-data/

 これは完全に無料ではありません。1Tを超えると支払う必要があります。 主に米国の情報は多いですが、データ分析のリソースとして利用可能です。




データ可視化ツール




14.YouTubeデータセット:https://research.google.com/youtube8m/index.html

 YouTubeのデータが必要な方にお勧めします~




データ可視化ツール




15.GOOGLEオープンデータ検索:http://www.google.com/publicdata/directory?hl=en_US&dl=ja

 Googleの検索ですべてのネットワークのデータを検索することができますが、Googleのオープンデータ検索では、データベースだけ検索できます。言語を切り替えると、その言語に対応するデータベースの結果が出ます。




データ可視化ツール




16.Google Trend Search:https://trends.google.com/trends/?geo=US

 常にトレンドに関心を持つ方、マーケティングや営業をやった人にお勧めします。 国別にトレンドをチェックできますし、googleでのキーワードの人気度をダウンロードできます。 同じキーワードが異なる国における人気度も比較できます。




データ可視化ツール






データ可視化ツール




17.アマゾン awshttps://aws.amazon.com/cn/datasets/

 アマゾンのクロスサイエンスのデータプラットフォームで、化学、生物学、経済など複数の分野のデータセットが含まれています。 全人類の遺伝情報データベースを構築しようとする1000のゲノムプロジェクトと、NASAの衛星画像のデータベースまで含みます。

四、そのほか

18.MNIST手書き数字データベース:http://yann.lecun.com/exdb/mnist/

 手書き数字画像認識のデータセットとして、MNIST手書きデータベースは、60,000例のトレーニングセットおよび10,000例のテストセットがあります。

2018110714.png

19.UCI機械学習データベース:https://archive.ics.uci.edu/ml/datasets.html

 UCI機械学習ライブラリは、機械学習アルゴリズムの実証研究のため、領域理論とデータジェネレータを結合したデータベースです。それは機械学習データセットの主要なソースとして世界中の学生、教育者、研究者によって広く使用されています。

データ可視化ツール




20.クローラー

 ほしいデータがまとまらない場合、データを取得するにはWebサイトデータのクロールのようなクロールツールを使用する必要があります。 この分野に多くのツールと方法があります。必要に応じて一つを選んで学習してください。

まとめ

 いかがでしょうか?以上のデータソースを十分に利用すれば、いつもと違う相当いいデータ分析を完成できるはずです。商用利用に関して、各データソースの利用条件を確認したうえで利用してください。

関連記事~ご興味のある方は読んでみてください!

データサイエンスを独学した一年のまとめ