Python
機械学習
MachineLearning
Python3
Database

「機械学習はデータ集めるのが一番大変・・・」⇛Googleが大量の機械学習用データベースを無料公開してた

(`・ω・)「機械学習すげー!格好いい!」

(・ω・`)「はは・・・・・・(実際は泥試合だけどね・・・)」

機械学習は素材集めがとても大変です。

学習に使えるか使えないかを仕分けする作業は、ヒヨコ選別に似た終末感があります。

私は機会学習を経て、『肝心のアルゴリズムよりも、国内海外の無料画像サイトとDL方法』に詳しくなってました。

でもこの素材集め、実は無理してやらなくても、元から良質な無料データベースがあったようなのです。

これだけ使えば0からモデルが作れる

もう、素材を探す長い旅をしなくてすむのです・・・


URLはこちら

YouTube8-M

https://research.google.com/youtube8m/explore.html

提供されているサービスは以下の通り


  • 800万個の動画

  • 19億個のフレーム


  • 4800個の分類
    image07.png

使い方はExploreから画像セットを探し、ダウンロードするだけ。


他の方法も見つけた

open images dataset

「すごい神だな」と思ったのは

スクリーンショット 2019-04-10 15.58.35.png

これもう完成されてますよね

もちろんこの認識前の画像もセットでダウンロードできます。

Youtube-8Mとは、画像数を取るか、精度で取るか、という違いでしょうか。


もう一つ良い素材集がありました・・・

(はてなブックマーク情報 @sek_165 さん )

githubに、用途集でまとめられているレポジトリがありました。

今まで、上記のウィキペディアのリストから直接探していたのですが、これは全てクイックリンクになっているので便利ですね!

https://github.com/arXivTimes/arXivTimes/blob/master/datasets/README.md

スクリーンショット 2019-04-11 19.38.56.png


Qiitaにも素晴らしい記事がございました

@Hailee さんの記事です。

データ分析に必要なデータソース20選(無料で使える)

世界中の行政からGoogleデータベースまで、かなり網羅されています。

今回ご紹介したYoutubeデータセットについても先んじてご紹介されていらっしゃいました。


まとめ

スクレイピングしまくって、数万個の画像を目で見ながら、使えるか使えないかで仕分け作業

ここのリストから使えそうなものをネットサーフィンで探す

この地獄の作業から解放される時が来ました・・・!

これまでも東大松尾研究室や、AWSや、キカガク社などから

機械学習に関する無料情報(全詳細)が公開されてきたが、これは規模が違う

本当に素材そのままで、現場ですぐに使える貴重なデータなのです。

もしこの情報を知らなかった方は、是非試してみて下さい。

ちなみに始まりはこれ(記事投稿の昨日)