Edited at

(保存版:随時更新)データ分析ハッカソンやる時の便利なチュートリアル集 by Team AI

我々Team AIは渋谷で毎日機械学習勉強会・データ分析ハッカソンを開催しています。

コミュニティを東京中心の100万人にするのが目標です。

日本中・世界中にこのデータ分析のムーブメントが広がると良いなと思っているので、

データ分析ハッカソンをやるときに便利なチュートリアルをまとめました。

とても楽しいので、皆さん、特に地方の皆さんは是非ご自身でやってみてくださいね!

Team AIとしても協力します。

FullSizeRender (8).jpg


初めての方は下記でKaggle/特にKernelの使い方をざっと眺めてください

まずはこれを観て! 石井が作ったKaggle Kernel機能の解説(生産性が上がります!)=>

https://www.youtube.com/watch?v=HkJmnpBjiI0

https://www.codexa.net/what-is-kaggle/

http://luvtome.blog5.fc2.com/blog-entry-644.html

DataSetが沢山並んでいるここで、いいねが沢山ついている興味あるデータセットをクリックしてみて下さい。DataSetはキーワード検索する事もできます。

https://www.kaggle.com/datasets

専業Kagglerカレーちゃんさんの詳細なKaggle解説;

https://note.mu/currypurin/n/nf390914c721e

カレーちゃんはTwitterでもKaggle情報発信されています;

https://twitter.com/currypurin

スクリーンショット 2018-09-06 19.21.27.png


2018/9/6

Googleよりデータセットの横断検索エンジンが発表 すごい便利です

https://toolbox.google.com/datasetsearch


Kaggleって何?

Kaggle事始め

http://qiita.com/taka4sato/items/802c494fdebeaa7f43b7

データサイエンティストを目指して勉強するなら、Kaggleからはじめよう

http://qiita.com/KIKUYA-Takumi/items/13ac849582318f559271


Kaggle Slack Group

Global Group 3000人

https://kagglenoobs.herokuapp.com/

日本のグループ ハイレベル中心に400人

http://kaggler-ja.herokuapp.com/


Fintech Data Hackathon


我々が使っているデータセット

Bitcoin Price Prediction (LightWeight CSV)

https://www.kaggle.com/team-ai/bitcoin-price-prediction

Uniqlo (FastRetailing) Stock Price Prediction

https://www.kaggle.com/daiearth22/uniqlo-fastretailing-stock-price-prediction

Foreign Exchange (FX) Prediction - USD/JPY

https://www.kaggle.com/team-ai/foreign-exchange-fx-prediction-usdjpy

Foreign Exchange(FX) Prediction - EUR/USD

https://www.kaggle.com/meehau/EURUSD/kernels

かなり丁寧に書かれたKernel => 予測精度99.7%は本当でしょうか??

https://www.kaggle.com/daiearth22/eurusd-15-minute-interval-price-prediction?scriptVersionId=8708587

Kaggle datasets in finance category (competitionはデータが重いです)

https://www.kaggle.com/tags/finance

Credit Card Fraud

クレジットカードの詐欺検知データ (66MBなので重め)

https://www.kaggle.com/mlg-ulb/creditcardfraud

StockPrice and News

ニュースと株価の相関分析(6MB)

https://www.kaggle.com/aaron7sun/stocknews

Loan Data for risk analysis

貸付リスク計算データ (6KB 軽め)

https://www.kaggle.com/zhijinzhai/loandata

Loan Data for risk analysis(heavy data)

貸付リスク計算データ (240MBvery heavy )

https://www.kaggle.com/wendykan/lending-club-loan-data


読むと良いブログ

為替をDeepLearningで予測してみた話

http://qiita.com/ognek/items/1b776d504d20bd6f6d7d

Twitter感情分析で株価予測の論文を検証したら約70%の精度で上下予測できた

http://qiita.com/ryo_grid/items/5a5ecc602186a3381c87

PythonというかMatplotlibでスケールや単位の異なる時系列データを整形して表示する

http://qiita.com/zaburo/items/00f364422ef3fe64f156


2018/10/19追記

インドの金融データ提供会社;

https://www.quandl.com/

デイトレーダーの方からかなり有益な情報を頂きました

株価予測をデータの前処理からLSTMでのトレーニングまで一気にやっちゃうAlphaAIのオープンソースプロジェクト - 98%の精度

https://github.com/VivekPa/AlphaAI

Finance x Python のもくもく会FinPy

https://fin-py.connpass.com/

Quantopianもくもく会

https://quantopian-tokyo.connpass.com/

手数料ゼロの株取引アプリStream

https://smartplus-sec.com/stream/

PythonデイトレーダーどりらんさんTwitter

https://twitter.com/patraqushe?lang=en

デイトレエンジニアしんせいたろうさんTwitter

https://twitter.com/shinseitaro


2018/9/21 FinTech追記

無料でも使える投資家支援アプリMyTrade

https://mytrade.jp/

経済危機を異常検知のコンセプトで予測するDragonKing理論(BlackSwanに似て非なる)

https://www.ted.com/talks/didier_sornette_how_we_can_predict_the_next_financial_crisis/transcript?language=ja#t-6583

DragonKing理論論文

https://arxiv.org/abs/0907.4290


2018/2/16 追加

カード支払い不履行データをExcelで分析してみた(今更聞けない統計学)

https://medium.com/team-ai-math/data-analysis-by-excel-b90fcbd7f4fe

海外のFinTech投資調査25社 Jan 2018

https://medium.com/team-ai-fintech/fintech-investment-jan-35d2424f22f4

注目の海外FinTechサービス事例20

https://medium.com/team-ai-fintech/fintech-startups-20-2c21b27ea003


Medical Data Hackathon

Synchronized brainwave dataset 脳波

https://www.kaggle.com/berkeley-biosense/synchronized-brainwave-dataset

Breast Cancer Wisconsin (Diagnostic) Data Set 乳がん

https://www.kaggle.com/uciml/breast-cancer-wisconsin-data

Hospital General Information 病院

https://www.kaggle.com/cms/hospital-general-information

Zika Virus Epidemic ジカ熱

https://www.kaggle.com/cdc/zika-virus-epidemic

Cervical Cancer Risk Classification 子宮頸がん

https://www.kaggle.com/loveall/cervical-cancer-risk-classification

Medical Appointment No Shows 患者のドタキャン分析

https://www.kaggle.com/joniarroba/noshowappointments

Mental Health in Tech Survey テック業界のメンタルヘルス

https://www.kaggle.com/osmi/mental-health-in-tech-survey


2018/6/18 Medical Dataハッカソンより追加

Googleのいけてるデータ可視化ツールFACETS

https://pair-code.github.io/facets/

RandamForestのRegressorで変数の重要度をざっくり検出(便利!)

http://scikit-learn.org/…/sklearn.ensemble.RandomForestRegr…

取得データの概要がつかめるPands Profiling

https://wonderwall.hatenablog.com/entry/2018/02/12/171500

医薬のオープンデータDrugBank

https://www.drugbank.ca/

タンパク質のオープンデータProtein Bank

https://www.rcsb.org/

Googleの無料GPUクラウドColaboratoryが超便利

http://itsukara.hateblo.jp/entry/2018/02/05/214949


NASA/Space Data Hackathon

Exoplanet Hunting in Deep Space 惑星探査データ

https://www.kaggle.com/keplersmachines/kepler-labelled-time-series-data

Solar Radiation Prediction 太陽の放射線データ

https://www.kaggle.com/dronio/SolarEnergy

Climate Change: Earth Surface Temperature Data 地球の表面温度データ

https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data

Meteorite Landings 隕石の衝突データ

https://www.kaggle.com/nasa/meteorite-landings

UFO Sightings UFO発見データ

https://www.kaggle.com/NUFORC/ufo-sightings

Open Exoplanet Catalogue 太陽系外惑星データ

https://www.kaggle.com/mrisdal/open-exoplanet-catalogue

Kepler Exoplanet Search Results 太陽系外惑星データ2

https://www.kaggle.com/nasa/kepler-exoplanet-search-results/kernels

NASAの太陽系外惑星探査ケプラー宇宙望遠鏡ミッション詳細

https://japanese.engadget.com/2018/03/15/9-4500/


2018/12/23追加

さくらインターネットの人工衛星データ活用の仕組みTellus

https://www.sakura.ad.jp/information/pressreleases/2018/07/31/1968197591/

Google Earth API

https://developers.google.com/earth-engine/


Marketing/Retail Data Hackathon

Springleaf Marketing Response ダイレクトメールの反応分析 150MB

https://www.kaggle.com/c/springleaf-marketing-response/kernels

Coupon Purchase Prediction リクルートのポンパレのデータ

https://www.kaggle.com/c/coupon-purchase-prediction

Airbnb New User Bookings Airbnbの予約データ分析

Where will a new guest book their first travel experience?

https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings

Rossmann Store Sales 小売店売上予測

https://www.kaggle.com/c/rossmann-store-sales/data

Home Depot Product Search Relevance

Predict the relevance of search results on homedepot.com

https://www.kaggle.com/c/home-depot-product-search-relevance

Acquire Valued Shoppers Challenge

Predict which shoppers will become repeat buyers

https://www.kaggle.com/c/acquire-valued-shoppers-challenge

Getting real about fake news

https://www.kaggle.com/mrisdal/fake-news

Starbucks Locations Worldwide

https://www.kaggle.com/starbucks/store-locations

Retail rocket recommendation system dataset

https://www.kaggle.com/retailrocket/ecommerce-dataset

Grupo Bimbo Inventory Demand 食品の売上最適化と返品の最小化 (Trainデータ3GBデータあり)

Maximize sales and minimize returns of bakery goods

https://www.kaggle.com/c/grupo-bimbo-inventory-demand

Innerwear Data from Victoria's Secret

https://www.kaggle.com/PromptCloudHQ/innerwear-data-from-victorias-secret-and-others


NLP(自然言語処理) Data Hackathon

自然言語処理チュートリアル =>

https://qiita.com/daisuke-team-ai/items/d2e18f07a08d9b4cb783


NLPの代表的なアプローチまとめ + コード (Kaggle Kernel) オススメ

https://www.kaggle.com/abhishek/approaching-almost-any-nlp-problem-on-kaggle

NLP Data;

Shinzo Abe Twitter Data(安倍首相のTwitterデータ)

https://www.kaggle.com/team-ai/shinzo-abe-japanese-prime-minister-twitter-nlp/version/1

World News on Reddit

掲示板上のニュースデータ解析

https://www.kaggle.com/rootuser/worldnews-on-reddit

South Park Dialogue

アニメ作品台本のセリフデータから話者を特定

https://www.kaggle.com/tovarischsukhov/southparklines

Deep NLP

Chatbotと履歴書データの解析

https://www.kaggle.com/samdeeplearning/deepnlp

Python Questions from StackOverFlow

プログラミングQ&AサイトのPythonに関する質問分析

https://www.kaggle.com/stackoverflow/pythonquestions

Japanese English Bilingual Corpus(日本語と英語のWikipediaコーパス)

https://www.kaggle.com/team-ai/japaneseenglish-bilingual-corpus

Japanese lemma frequency 日本語の頻出語15000リスト

A list of the 15,000 most common word forms in Japanese

https://www.kaggle.com/rtatman/japanese-lemma-frequency

Japanese Whisky Review Dataset(英語ですが日本のウイスキーのレビュー)

1,000+ Reviews of Japanese Whisky

https://www.kaggle.com/koki25ando/japanese-whisky-review

(上級者向け) Q&AサイトQuoraの類似質問を分類するコンペ

https://www.kaggle.com/c/quora-question-pairs

番外;トランプ大統領のTwitter AI => 話しかけると直ぐに答えてくれます!

https://twitter.com/TrumpSidekik

スクリーンショット 2018-10-10 20.51.26.png


HR Data

Kaggle ML and Data Science Survey, 2017 データ分析業界全体の分析

A big picture view of the state of data science and machine learning.

https://www.kaggle.com/kaggle/kaggle-survey-2017

U.S. Incomes by Occupation and Gender 性別による収入格差の分析

Analyze gender gap and differences in industry's incomes

https://www.kaggle.com/jonavery/incomes-by-career-and-gender

Daily Happiness & Employee Turnover 業績と社員幸福度の相関性分析

Is There a Relationship Between Employee Happiness and Job Turnover?

https://www.kaggle.com/harriken/employeeturnover

IBM HR Analytics Employee Attrition & Performance IBMの離職率分析

Predict attrition of your valuable employees

https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset

Human Resources Analytics なぜ優秀な社員が離職するのか?という分析

Why are our best and most experienced employees leaving prematurely?

https://www.kaggle.com/ludobenistant/hr-analytics

2016 New Coder Survey 新人ソフトウエアエンジニア15000人分の属性データ

A survey of 15,000+ people who are new to software development

https://www.kaggle.com/freecodecamp/2016-new-coder-survey-

U.S. Incomes by Occupation and Gender 職業と性別による所得格差分析

Analyze gender gap and differences in industry's incomes

https://www.kaggle.com/jonavery/incomes-by-career-and-gender


参照すると良い記事

Pythonでk-db.comから時系列データを取得する

http://qiita.com/sawadybomb/items/03c3814268d3e2904e6c


オススメデータセット


英語も素晴らしい情報が揃っています


Google Translate for Chromeを入れれば一発で自動翻訳できます!

Quoraに時系列予測のノウハウがいっぱい載っています(FinTech向け);

https://www.google.co.jp/search?q=how+to+predict+time+series+quora&rlz=1C5CHFA_enJP747JP747&oq=how+to+predict+time+series+quora&aqs=chrome..69i57.8273j0j7&sourceid=chrome&ie=UTF-8


数理的アプローチ一覧

(保存版:ど素人向け) 機械学習/データ分析 読むべき記事リスト by Team AI

http://qiita.com/daisuke-team-ai/items/68f82f6502e06678c660


Pythonのパッケージ


Pandas

Official Site

http://pandas.pydata.org/

ゆるふわPandasチートシート

http://qiita.com/tanemaki/items/2ed05e258ef4c9e6caac

これだけ覚えておけばなんとかなるPandas

http://qiita.com/kojim/items/c56ec63063bec62bc5ed


Seaborn

Official Site

https://seaborn.pydata.org/

pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る その1

http://qiita.com/hik0107/items/3dc541158fceb3156ee0

pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る その2

http://qiita.com/hik0107/items/7233ca334b2a5e1ca924

matplotlib と Seaborn の軸の日本語設定

http://qiita.com/kshigeru/items/0cfc0778bab197687967