(保存版:ど素人向け)データ分析ハッカソンやる時の便利なチュートリアル集 by Team AI

  • 48
    Like
  • 0
    Comment

我々Team AIは渋谷で毎日機械学習勉強会・データ分析ハッカソンを開催しています。
コミュニティを東京中心の100万人にするのが目標です。

日本中・世界中にこのデータ分析のムーブメントが広がると良いなと思っているので、
データ分析ハッカソンをやるときに便利なチュートリアルをまとめました。
とても楽しいので、皆さん、特に地方の皆さんは是非ご自身でやってみてくださいね!
Team AIとしても協力します。

FullSizeRender (8).jpg

Kaggleって何?

Kaggle事始め
http://qiita.com/taka4sato/items/802c494fdebeaa7f43b7

データサイエンティストを目指して勉強するなら、Kaggleからはじめよう

http://qiita.com/KIKUYA-Takumi/items/13ac849582318f559271

Kaggle Slack Group

Global Group 3000人
https://kagglenoobs.herokuapp.com/

日本のグループ ハイレベル中心に400人
http://kaggler-ja.herokuapp.com/

Fintech Data Hackathon

我々が使っているデータセット

Bitcoin Price Prediction (LightWeight CSV)
https://www.kaggle.com/team-ai/bitcoin-price-prediction

Uniqlo (FastRetailing) Stock Price Prediction

https://www.kaggle.com/daiearth22/uniqlo-fastretailing-stock-price-prediction

Foreign Exchange (FX) Prediction - USD/JPY
https://www.kaggle.com/team-ai/foreign-exchange-fx-prediction-usdjpy

読むと良いブログ

為替をDeepLearningで予測してみた話

http://qiita.com/ognek/items/1b776d504d20bd6f6d7d

Twitter感情分析で株価予測の論文を検証したら約70%の精度で上下予測できた

http://qiita.com/ryo_grid/items/5a5ecc602186a3381c87

PythonというかMatplotlibでスケールや単位の異なる時系列データを整形して表示する

http://qiita.com/zaburo/items/00f364422ef3fe64f156

Medical Data Hackaton

Synchronized brainwave dataset 脳波
https://www.kaggle.com/berkeley-biosense/synchronized-brainwave-dataset

Breast Cancer Wisconsin (Diagnostic) Data Set 乳がん
https://www.kaggle.com/uciml/breast-cancer-wisconsin-data

Hospital General Information 病院
https://www.kaggle.com/cms/hospital-general-information

Zika Virus Epidemic ジカ熱
https://www.kaggle.com/cdc/zika-virus-epidemic

Cervical Cancer Risk Classification 子宮頸がん
https://www.kaggle.com/loveall/cervical-cancer-risk-classification

Medical Appointment No Shows 患者のドタキャン分析
https://www.kaggle.com/joniarroba/noshowappointments

Mental Health in Tech Survey テック業界のメンタルヘルス
https://www.kaggle.com/osmi/mental-health-in-tech-survey

Marketing/Retail Data Hackathon

Springleaf Marketing Response ダイレクトメールの反応分析 150MB
https://www.kaggle.com/c/springleaf-marketing-response/kernels

Coupon Purchase Prediction リクルートのポンパレのデータ
https://www.kaggle.com/c/coupon-purchase-prediction

Airbnb New User Bookings Airbnbの予約データ分析
Where will a new guest book their first travel experience?
https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings

Rossmann Store Sales 小売店売上予測
https://www.kaggle.com/c/rossmann-store-sales/data

Home Depot Product Search Relevance
Predict the relevance of search results on homedepot.com
https://www.kaggle.com/c/home-depot-product-search-relevance

Acquire Valued Shoppers Challenge
Predict which shoppers will become repeat buyers
https://www.kaggle.com/c/acquire-valued-shoppers-challenge

Getting real about fake news
https://www.kaggle.com/mrisdal/fake-news

Starbucks Locations Worldwide
https://www.kaggle.com/starbucks/store-locations

Retail rocket recommendation system dataset
https://www.kaggle.com/retailrocket/ecommerce-dataset

Grupo Bimbo Inventory Demand 食品の売上最適化と返品の最小化 (Trainデータ3GBデータあり)
Maximize sales and minimize returns of bakery goods
https://www.kaggle.com/c/grupo-bimbo-inventory-demand

Innerwear Data from Victoria's Secret
https://www.kaggle.com/PromptCloudHQ/innerwear-data-from-victorias-secret-and-others

NLP(自然言語処理) Data Hackathon

自然言語処理チュートリアル =>
https://qiita.com/daisuke-team-ai/items/d2e18f07a08d9b4cb783

NLP Data;

Shinzo Abe Twitter Data(安倍首相のTwitterデータ)
https://www.kaggle.com/team-ai/shinzo-abe-japanese-prime-minister-twitter-nlp/version/1

World News on Reddit
掲示板上のニュースデータ解析
https://www.kaggle.com/rootuser/worldnews-on-reddit

South Park Dialogue
アニメ作品台本のセリフデータから話者を特定
https://www.kaggle.com/tovarischsukhov/southparklines

Deep NLP
Chatbotと履歴書データの解析
https://www.kaggle.com/samdeeplearning/deepnlp

Python Questions from StackOverFlow
プログラミングQ&AサイトのPythonに関する質問分析
https://www.kaggle.com/stackoverflow/pythonquestions

Japanese English Bilingual Corpus(日本語と英語のWikipediaコーパス)
https://www.kaggle.com/team-ai/japaneseenglish-bilingual-corpus

(上級者向け) Q&AサイトQuoraの類似質問を分類するコンペ
https://www.kaggle.com/c/quora-question-pairs

HR Data

Kaggle ML and Data Science Survey, 2017 データ分析業界全体の分析
A big picture view of the state of data science and machine learning.
https://www.kaggle.com/kaggle/kaggle-survey-2017

U.S. Incomes by Occupation and Gender 性別による収入格差の分析
Analyze gender gap and differences in industry's incomes
https://www.kaggle.com/jonavery/incomes-by-career-and-gender

Daily Happiness & Employee Turnover 業績と社員幸福度の相関性分析
Is There a Relationship Between Employee Happiness and Job Turnover?
https://www.kaggle.com/harriken/employeeturnover

IBM HR Analytics Employee Attrition & Performance IBMの離職率分析
Predict attrition of your valuable employees
https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset

Human Resources Analytics なぜ優秀な社員が離職するのか?という分析
Why are our best and most experienced employees leaving prematurely?
https://www.kaggle.com/ludobenistant/hr-analytics

2016 New Coder Survey 新人ソフトウエアエンジニア15000人分の属性データ
A survey of 15,000+ people who are new to software development
https://www.kaggle.com/freecodecamp/2016-new-coder-survey-

U.S. Incomes by Occupation and Gender 職業と性別による所得格差分析
Analyze gender gap and differences in industry's incomes
https://www.kaggle.com/jonavery/incomes-by-career-and-gender

参照すると良い記事

Pythonでk-db.comから時系列データを取得する

http://qiita.com/sawadybomb/items/03c3814268d3e2904e6c

オススメデータセット

英語も素晴らしい情報が揃っています

Google Translate for Chromeを入れれば一発で自動翻訳できます!

Quoraに時系列予測のノウハウがいっぱい載っています(FinTech向け);
https://www.google.co.jp/search?q=how+to+predict+time+series+quora&rlz=1C5CHFA_enJP747JP747&oq=how+to+predict+time+series+quora&aqs=chrome..69i57.8273j0j7&sourceid=chrome&ie=UTF-8

数理的アプローチ一覧

(保存版:ど素人向け) 機械学習/データ分析 読むべき記事リスト by Team AI

http://qiita.com/daisuke-team-ai/items/68f82f6502e06678c660

Pythonのパッケージ

Pandas

Official Site
http://pandas.pydata.org/
ゆるふわPandasチートシート

http://qiita.com/tanemaki/items/2ed05e258ef4c9e6caac

これだけ覚えておけばなんとかなるPandas

http://qiita.com/kojim/items/c56ec63063bec62bc5ed

Seaborn

Official Site
https://seaborn.pydata.org/

pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る その1

http://qiita.com/hik0107/items/3dc541158fceb3156ee0

pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る その2

http://qiita.com/hik0107/items/7233ca334b2a5e1ca924

matplotlib と Seaborn の軸の日本語設定

http://qiita.com/kshigeru/items/0cfc0778bab197687967