Help us understand the problem. What is going on with this article?

「機械学習はデータ集めるのが一番大変・・・」⇛Googleが大量の機械学習用データベースを無料公開してた

(`・ω・)「機械学習すげー!格好いい!」
(・ω・`)「はは・・・・・・(実際は泥試合だけどね・・・)」

機械学習は素材集めがとても大変です。
学習に使えるか使えないかを仕分けする作業は、ヒヨコ選別に似た終末感があります。
私は機会学習を経て、『肝心のアルゴリズムよりも、国内海外の無料画像サイトとDL方法』に詳しくなってました。

でもこの素材集め、実は無理してやらなくても、元から良質な無料データベースがあったようなのです。
これだけ使えば0からモデルが作れる
もう、素材を探す長い旅をしなくてすむのです・・・

URLはこちら

YouTube8-M
https://research.google.com/youtube8m/explore.html

提供されているサービスは以下の通り

  • 800万個の動画
  • 19億個のフレーム
  • 4800個の分類 image07.png

使い方はExploreから画像セットを探し、ダウンロードするだけ。

他の方法も見つけた

open images dataset

「すごい神だな」と思ったのは

スクリーンショット 2019-04-10 15.58.35.png

これもう完成されてますよね
もちろんこの認識前の画像もセットでダウンロードできます。
Youtube-8Mとは、画像数を取るか、精度で取るか、という違いでしょうか。

もう一つ良い素材集がありました・・・

(はてなブックマーク情報 @sek_165 さん )
githubに、用途集でまとめられているレポジトリがありました。
今まで、上記のウィキペディアのリストから直接探していたのですが、これは全てクイックリンクになっているので便利ですね!

https://github.com/arXivTimes/arXivTimes/blob/master/datasets/README.md
スクリーンショット 2019-04-11 19.38.56.png

Qiitaにも素晴らしい記事がございました

@Hailee さんの記事です。
データ分析に必要なデータソース20選(無料で使える)

世界中の行政からGoogleデータベースまで、かなり網羅されています。
今回ご紹介したYoutubeデータセットについても先んじてご紹介されていらっしゃいました。

まとめ

スクレイピングしまくって、数万個の画像を目で見ながら、使えるか使えないかで仕分け作業
ここのリストから使えそうなものをネットサーフィンで探す

この地獄の作業から解放される時が来ました・・・!

これまでも東大松尾研究室や、AWSや、キカガク社などから
機械学習に関する無料情報(全詳細)が公開されてきたが、これは規模が違う

本当に素材そのままで、現場ですぐに使える貴重なデータなのです。
もしこの情報を知らなかった方は、是非試してみて下さい。

ちなみに始まりはこれ(記事投稿の昨日)

ryuta69
ᓚᘏᗢ zzz...。oO
https://github.com/ryuta69
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした