Python
機械学習
MachineLearning
DeepLearning
深層学習

(保存版:随時更新)データ分析ハッカソンやる時の便利なチュートリアル集 by Team AI

我々Team AIは渋谷で毎日機械学習勉強会・データ分析ハッカソンを開催しています。
コミュニティを東京中心の100万人にするのが目標です。

日本中・世界中にこのデータ分析のムーブメントが広がると良いなと思っているので、
データ分析ハッカソンをやるときに便利なチュートリアルをまとめました。
とても楽しいので、皆さん、特に地方の皆さんは是非ご自身でやってみてくださいね!
Team AIとしても協力します。

FullSizeRender (8).jpg

初めての方は下記でKaggle/特にKernelの使い方をざっと眺めてください

私が作ったKaggle Kernelの解説(オススメ!)=>
https://www.youtube.com/watch?v=HkJmnpBjiI0

https://www.codexa.net/what-is-kaggle/

http://luvtome.blog5.fc2.com/blog-entry-644.html

DataSetが沢山並んでいるここで、いいねが沢山ついている興味あるデータセットをクリックしてみて下さい。DataSetはキーワード検索する事もできます。
https://www.kaggle.com/datasets

スクリーンショット 2018-09-06 19.21.27.png

2018/9/6

Googleよりデータセットの横断検索エンジンが発表 すごい便利です
https://toolbox.google.com/datasetsearch

Kaggleって何?

Kaggle事始め
http://qiita.com/taka4sato/items/802c494fdebeaa7f43b7

データサイエンティストを目指して勉強するなら、Kaggleからはじめよう

http://qiita.com/KIKUYA-Takumi/items/13ac849582318f559271

Kaggle Slack Group

Global Group 3000人
https://kagglenoobs.herokuapp.com/

日本のグループ ハイレベル中心に400人
http://kaggler-ja.herokuapp.com/

Fintech Data Hackathon

我々が使っているデータセット

Bitcoin Price Prediction (LightWeight CSV)
https://www.kaggle.com/team-ai/bitcoin-price-prediction

Uniqlo (FastRetailing) Stock Price Prediction

https://www.kaggle.com/daiearth22/uniqlo-fastretailing-stock-price-prediction

Foreign Exchange (FX) Prediction - USD/JPY
https://www.kaggle.com/team-ai/foreign-exchange-fx-prediction-usdjpy

Kaggle datasets in finance category (competitionはデータが重いです)
https://www.kaggle.com/tags/finance

クレジットカードの詐欺検知データ (66MBなので重め)
https://www.kaggle.com/mlg-ulb/creditcardfraud

貸付リスク計算データ (240MB)
https://www.kaggle.com/wendykan/lending-club-loan-data

ニュースと株価の相関分析(6MB)
https://www.kaggle.com/aaron7sun/stocknews

貸付リスク計算データ (6KB 軽め)
https://www.kaggle.com/zhijinzhai/loandata

読むと良いブログ

為替をDeepLearningで予測してみた話
http://qiita.com/ognek/items/1b776d504d20bd6f6d7d

Twitter感情分析で株価予測の論文を検証したら約70%の精度で上下予測できた
http://qiita.com/ryo_grid/items/5a5ecc602186a3381c87

PythonというかMatplotlibでスケールや単位の異なる時系列データを整形して表示する
http://qiita.com/zaburo/items/00f364422ef3fe64f156

2018/10/19追記

デイトレーダーの方からかなり有益な情報を頂きました

株価予測をデータの前処理からLSTMでのトレーニングまで一気にやっちゃうAlphaAIのオープンソースプロジェクト - 98%の精度
https://github.com/VivekPa/AlphaAI

Finance x Python のもくもく会FinPy
https://fin-py.connpass.com/

Quantopianもくもく会
https://quantopian-tokyo.connpass.com/

手数料ゼロの株取引アプリStream
https://smartplus-sec.com/stream/

PythonデイトレーダーどりらんさんTwitter
https://twitter.com/patraqushe?lang=en

デイトレエンジニアしんせいたろうさんTwitter
https://twitter.com/shinseitaro

2018/9/21 FinTech追記

無料でも使える投資家支援アプリMyTrade
https://mytrade.jp/

経済危機を異常検知のコンセプトで予測するDragonKing理論(BlackSwanに似て非なる)
https://www.ted.com/talks/didier_sornette_how_we_can_predict_the_next_financial_crisis/transcript?language=ja#t-6583

DragonKing理論論文
https://arxiv.org/abs/0907.4290

2018/2/16 追加

カード支払い不履行データをExcelで分析してみた(今更聞けない統計学)
https://medium.com/team-ai-math/data-analysis-by-excel-b90fcbd7f4fe

海外のFinTech投資調査25社 Jan 2018
https://medium.com/team-ai-fintech/fintech-investment-jan-35d2424f22f4

注目の海外FinTechサービス事例20
https://medium.com/team-ai-fintech/fintech-startups-20-2c21b27ea003

Medical Data Hackathon

Synchronized brainwave dataset 脳波
https://www.kaggle.com/berkeley-biosense/synchronized-brainwave-dataset

Breast Cancer Wisconsin (Diagnostic) Data Set 乳がん
https://www.kaggle.com/uciml/breast-cancer-wisconsin-data

Hospital General Information 病院
https://www.kaggle.com/cms/hospital-general-information

Zika Virus Epidemic ジカ熱
https://www.kaggle.com/cdc/zika-virus-epidemic

Cervical Cancer Risk Classification 子宮頸がん
https://www.kaggle.com/loveall/cervical-cancer-risk-classification

Medical Appointment No Shows 患者のドタキャン分析
https://www.kaggle.com/joniarroba/noshowappointments

Mental Health in Tech Survey テック業界のメンタルヘルス
https://www.kaggle.com/osmi/mental-health-in-tech-survey

2018/6/18 Medical Dataハッカソンより追加

Googleのいけてるデータ可視化ツールFACETS
https://pair-code.github.io/facets/

RandamForestのRegressorで変数の重要度をざっくり検出(便利!)
http://scikit-learn.org/…/sklearn.ensemble.RandomForestRegr…

取得データの概要がつかめるPands Profiling
https://wonderwall.hatenablog.com/entry/2018/02/12/171500

医薬のオープンデータDrugBank
https://www.drugbank.ca/

タンパク質のオープンデータProtein Bank
https://www.rcsb.org/

Googleの無料GPUクラウドColaboratoryが超便利
http://itsukara.hateblo.jp/entry/2018/02/05/214949

NASA/Space Data Hackathon

Exoplanet Hunting in Deep Space 惑星探査データ
https://www.kaggle.com/keplersmachines/kepler-labelled-time-series-data

Solar Radiation Prediction 太陽の放射線データ
https://www.kaggle.com/dronio/SolarEnergy

Climate Change: Earth Surface Temperature Data 地球の表面温度データ
https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data

Meteorite Landings 隕石の衝突データ
https://www.kaggle.com/nasa/meteorite-landings

UFO Sightings UFO発見データ
https://www.kaggle.com/NUFORC/ufo-sightings

Open Exoplanet Catalogue 太陽系外惑星データ
https://www.kaggle.com/mrisdal/open-exoplanet-catalogue

Kepler Exoplanet Search Results 太陽系外惑星データ2
https://www.kaggle.com/nasa/kepler-exoplanet-search-results/kernels

NASAの太陽系外惑星探査ケプラー宇宙望遠鏡ミッション詳細
https://japanese.engadget.com/2018/03/15/9-4500/

Marketing/Retail Data Hackathon

Springleaf Marketing Response ダイレクトメールの反応分析 150MB
https://www.kaggle.com/c/springleaf-marketing-response/kernels

Coupon Purchase Prediction リクルートのポンパレのデータ
https://www.kaggle.com/c/coupon-purchase-prediction

Airbnb New User Bookings Airbnbの予約データ分析
Where will a new guest book their first travel experience?
https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings

Rossmann Store Sales 小売店売上予測
https://www.kaggle.com/c/rossmann-store-sales/data

Home Depot Product Search Relevance
Predict the relevance of search results on homedepot.com
https://www.kaggle.com/c/home-depot-product-search-relevance

Acquire Valued Shoppers Challenge
Predict which shoppers will become repeat buyers
https://www.kaggle.com/c/acquire-valued-shoppers-challenge

Getting real about fake news
https://www.kaggle.com/mrisdal/fake-news

Starbucks Locations Worldwide
https://www.kaggle.com/starbucks/store-locations

Retail rocket recommendation system dataset
https://www.kaggle.com/retailrocket/ecommerce-dataset

Grupo Bimbo Inventory Demand 食品の売上最適化と返品の最小化 (Trainデータ3GBデータあり)
Maximize sales and minimize returns of bakery goods
https://www.kaggle.com/c/grupo-bimbo-inventory-demand

Innerwear Data from Victoria's Secret
https://www.kaggle.com/PromptCloudHQ/innerwear-data-from-victorias-secret-and-others

NLP(自然言語処理) Data Hackathon

自然言語処理チュートリアル =>
https://qiita.com/daisuke-team-ai/items/d2e18f07a08d9b4cb783

NLPの代表的なアプローチまとめ + コード (Kaggle Kernel) オススメ

https://www.kaggle.com/abhishek/approaching-almost-any-nlp-problem-on-kaggle

NLP Data;

Shinzo Abe Twitter Data(安倍首相のTwitterデータ)
https://www.kaggle.com/team-ai/shinzo-abe-japanese-prime-minister-twitter-nlp/version/1

World News on Reddit
掲示板上のニュースデータ解析
https://www.kaggle.com/rootuser/worldnews-on-reddit

South Park Dialogue
アニメ作品台本のセリフデータから話者を特定
https://www.kaggle.com/tovarischsukhov/southparklines

Deep NLP
Chatbotと履歴書データの解析
https://www.kaggle.com/samdeeplearning/deepnlp

Python Questions from StackOverFlow
プログラミングQ&AサイトのPythonに関する質問分析
https://www.kaggle.com/stackoverflow/pythonquestions

Japanese English Bilingual Corpus(日本語と英語のWikipediaコーパス)
https://www.kaggle.com/team-ai/japaneseenglish-bilingual-corpus

Japanese lemma frequency 日本語の頻出語15000リスト
A list of the 15,000 most common word forms in Japanese
https://www.kaggle.com/rtatman/japanese-lemma-frequency

Japanese Whisky Review Dataset(英語ですが日本のウイスキーのレビュー)
1,000+ Reviews of Japanese Whisky
https://www.kaggle.com/koki25ando/japanese-whisky-review

(上級者向け) Q&AサイトQuoraの類似質問を分類するコンペ
https://www.kaggle.com/c/quora-question-pairs

番外;トランプ大統領のTwitter AI => 話しかけると直ぐに答えてくれます!
https://twitter.com/TrumpSidekik
スクリーンショット 2018-10-10 20.51.26.png

HR Data

Kaggle ML and Data Science Survey, 2017 データ分析業界全体の分析
A big picture view of the state of data science and machine learning.
https://www.kaggle.com/kaggle/kaggle-survey-2017

U.S. Incomes by Occupation and Gender 性別による収入格差の分析
Analyze gender gap and differences in industry's incomes
https://www.kaggle.com/jonavery/incomes-by-career-and-gender

Daily Happiness & Employee Turnover 業績と社員幸福度の相関性分析
Is There a Relationship Between Employee Happiness and Job Turnover?
https://www.kaggle.com/harriken/employeeturnover

IBM HR Analytics Employee Attrition & Performance IBMの離職率分析
Predict attrition of your valuable employees
https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset

Human Resources Analytics なぜ優秀な社員が離職するのか?という分析
Why are our best and most experienced employees leaving prematurely?
https://www.kaggle.com/ludobenistant/hr-analytics

2016 New Coder Survey 新人ソフトウエアエンジニア15000人分の属性データ
A survey of 15,000+ people who are new to software development
https://www.kaggle.com/freecodecamp/2016-new-coder-survey-

U.S. Incomes by Occupation and Gender 職業と性別による所得格差分析
Analyze gender gap and differences in industry's incomes
https://www.kaggle.com/jonavery/incomes-by-career-and-gender

参照すると良い記事

Pythonでk-db.comから時系列データを取得する

http://qiita.com/sawadybomb/items/03c3814268d3e2904e6c

オススメデータセット

英語も素晴らしい情報が揃っています

Google Translate for Chromeを入れれば一発で自動翻訳できます!

Quoraに時系列予測のノウハウがいっぱい載っています(FinTech向け);
https://www.google.co.jp/search?q=how+to+predict+time+series+quora&rlz=1C5CHFA_enJP747JP747&oq=how+to+predict+time+series+quora&aqs=chrome..69i57.8273j0j7&sourceid=chrome&ie=UTF-8

数理的アプローチ一覧

(保存版:ど素人向け) 機械学習/データ分析 読むべき記事リスト by Team AI

http://qiita.com/daisuke-team-ai/items/68f82f6502e06678c660

Pythonのパッケージ

Pandas

Official Site
http://pandas.pydata.org/
ゆるふわPandasチートシート

http://qiita.com/tanemaki/items/2ed05e258ef4c9e6caac

これだけ覚えておけばなんとかなるPandas

http://qiita.com/kojim/items/c56ec63063bec62bc5ed

Seaborn

Official Site
https://seaborn.pydata.org/

pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る その1

http://qiita.com/hik0107/items/3dc541158fceb3156ee0

pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る その2

http://qiita.com/hik0107/items/7233ca334b2a5e1ca924

matplotlib と Seaborn の軸の日本語設定

http://qiita.com/kshigeru/items/0cfc0778bab197687967