LoginSignup
221

(保存版:随時更新)データ分析ハッカソンやる時の便利なチュートリアル集 by Team AI

Last updated at Posted at 2017-08-30

(English follows)

我々Team AIは渋谷で毎日機械学習勉強会・データ分析ハッカソンを開催しています。
コミュニティを東京中心の100万人にするのが目標です。

日本中・世界中にこのデータ分析のムーブメントが広がると良いなと思っているので、
データ分析ハッカソンをやるときに便利なチュートリアルをまとめました。
とても楽しいので、皆さん、特に地方の皆さんは是非ご自身でやってみてくださいね!
Team AIとしても協力します。

FullSizeRender (8).jpg

#初めての方は下記でKaggle/特にKernelの使い方をざっと眺めてください

まずはこれを観て! 石井が作ったKaggle Kernel機能の解説(生産性が上がります!)=>
https://www.youtube.com/watch?v=HkJmnpBjiI0

DataSetが沢山並んでいるここで、いいねが沢山ついている興味あるデータセットをクリックしてみて下さい。DataSetはキーワード検索する事もできます。
https://www.kaggle.com/datasets

専業Kagglerカレーちゃんさんの詳細なKaggle解説;
https://note.mu/currypurin/n/nf390914c721e

カレーちゃんはTwitterでもKaggle情報発信されています;
https://twitter.com/currypurin

スクリーンショット 2018-09-06 19.21.27.png

#2018/9/6
Googleよりデータセットの横断検索エンジンが発表 すごい便利です
https://toolbox.google.com/datasetsearch

#Kaggleって何?

Kaggle事始め
http://qiita.com/taka4sato/items/802c494fdebeaa7f43b7

データサイエンティストを目指して勉強するなら、Kaggleからはじめよう

#Kaggle Slack Group

Global Group 3000人
https://kagglenoobs.herokuapp.com/

日本のグループ ハイレベル中心に400人
http://kaggler-ja.herokuapp.com/

#Fintech Data Hackathon

###我々が使っているデータセット

Bitcoin Price Prediction (LightWeight CSV)
https://www.kaggle.com/team-ai/bitcoin-price-prediction

Uniqlo (FastRetailing) Stock Price Prediction

Foreign Exchange (FX) Prediction - USD/JPY
https://www.kaggle.com/team-ai/foreign-exchange-fx-prediction-usdjpy

Foreign Exchange(FX) Prediction - EUR/USD
https://www.kaggle.com/meehau/EURUSD/kernels
かなり丁寧に書かれたKernel => 予測精度99.7%は本当でしょうか??
https://www.kaggle.com/daiearth22/eurusd-15-minute-interval-price-prediction?scriptVersionId=8708587

Kaggle datasets in finance category (competitionはデータが重いです)
https://www.kaggle.com/tags/finance

Credit Card Fraud
クレジットカードの詐欺検知データ (66MBなので重め)
https://www.kaggle.com/mlg-ulb/creditcardfraud

StockPrice and News
ニュースと株価の相関分析(6MB)
https://www.kaggle.com/aaron7sun/stocknews

Loan Data for risk analysis
貸付リスク計算データ (6KB 軽め)
https://www.kaggle.com/zhijinzhai/loandata

Loan Data for risk analysis(heavy data)
貸付リスク計算データ (240MBvery heavy )
https://www.kaggle.com/wendykan/lending-club-loan-data

###読むと良いブログ

為替をDeepLearningで予測してみた話
http://qiita.com/ognek/items/1b776d504d20bd6f6d7d

Twitter感情分析で株価予測の論文を検証したら約70%の精度で上下予測できた
http://qiita.com/ryo_grid/items/5a5ecc602186a3381c87

PythonというかMatplotlibでスケールや単位の異なる時系列データを整形して表示する
http://qiita.com/zaburo/items/00f364422ef3fe64f156

###2018/10/19追記

インドの金融データ提供会社;
https://www.quandl.com/

デイトレーダーの方からかなり有益な情報を頂きました

株価予測をデータの前処理からLSTMでのトレーニングまで一気にやっちゃうAlphaAIのオープンソースプロジェクト - 98%の精度
https://github.com/VivekPa/AlphaAI

Finance x Python のもくもく会FinPy
https://fin-py.connpass.com/

Quantopianもくもく会
https://quantopian-tokyo.connpass.com/

手数料ゼロの株取引アプリStream
https://smartplus-sec.com/stream/

PythonデイトレーダーどりらんさんTwitter
https://twitter.com/patraqushe?lang=en

デイトレエンジニアしんせいたろうさんTwitter
https://twitter.com/shinseitaro

###2018/9/21 FinTech追記

無料でも使える投資家支援アプリMyTrade
https://mytrade.jp/

経済危機を異常検知のコンセプトで予測するDragonKing理論(BlackSwanに似て非なる)
https://www.ted.com/talks/didier_sornette_how_we_can_predict_the_next_financial_crisis/transcript?language=ja#t-6583

DragonKing理論論文
https://arxiv.org/abs/0907.4290

###2018/2/16 追加

カード支払い不履行データをExcelで分析してみた(今更聞けない統計学)
https://medium.com/team-ai-math/data-analysis-by-excel-b90fcbd7f4fe

海外のFinTech投資調査25社 Jan 2018
https://medium.com/team-ai-fintech/fintech-investment-jan-35d2424f22f4

注目の海外FinTechサービス事例20
https://medium.com/team-ai-fintech/fintech-startups-20-2c21b27ea003

#Medical Data Hackathon

Synchronized brainwave dataset 脳波
https://www.kaggle.com/berkeley-biosense/synchronized-brainwave-dataset

Breast Cancer Wisconsin (Diagnostic) Data Set 乳がん
https://www.kaggle.com/uciml/breast-cancer-wisconsin-data

Hospital General Information 病院
https://www.kaggle.com/cms/hospital-general-information

Zika Virus Epidemic ジカ熱
https://www.kaggle.com/cdc/zika-virus-epidemic

Cervical Cancer Risk Classification 子宮頸がん
https://www.kaggle.com/loveall/cervical-cancer-risk-classification

Medical Appointment No Shows 患者のドタキャン分析
https://www.kaggle.com/joniarroba/noshowappointments

Mental Health in Tech Survey テック業界のメンタルヘルス
https://www.kaggle.com/osmi/mental-health-in-tech-survey

###2018/6/18 Medical Dataハッカソンより追加

Googleのいけてるデータ可視化ツールFACETS
https://pair-code.github.io/facets/

RandamForestのRegressorで変数の重要度をざっくり検出(便利!)
http://scikit-learn.org/…/sklearn.ensemble.RandomForestRegr…

取得データの概要がつかめるPands Profiling
https://wonderwall.hatenablog.com/entry/2018/02/12/171500

医薬のオープンデータDrugBank
https://www.drugbank.ca/

タンパク質のオープンデータProtein Bank
https://www.rcsb.org/

Googleの無料GPUクラウドColaboratoryが超便利
http://itsukara.hateblo.jp/entry/2018/02/05/214949

#NASA/Space Data Hackathon

Exoplanet Hunting in Deep Space 惑星探査データ
https://www.kaggle.com/keplersmachines/kepler-labelled-time-series-data

Solar Radiation Prediction 太陽の放射線データ
https://www.kaggle.com/dronio/SolarEnergy

Climate Change: Earth Surface Temperature Data 地球の表面温度データ
https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data

Meteorite Landings 隕石の衝突データ
https://www.kaggle.com/nasa/meteorite-landings

UFO Sightings UFO発見データ
https://www.kaggle.com/NUFORC/ufo-sightings

Open Exoplanet Catalogue 太陽系外惑星データ
https://www.kaggle.com/mrisdal/open-exoplanet-catalogue

Kepler Exoplanet Search Results 太陽系外惑星データ2
https://www.kaggle.com/nasa/kepler-exoplanet-search-results/kernels

NASAの太陽系外惑星探査ケプラー宇宙望遠鏡ミッション詳細
https://japanese.engadget.com/2018/03/15/9-4500/

##2018/12/23追加

さくらインターネットの人工衛星データ活用の仕組みTellus
https://www.sakura.ad.jp/information/pressreleases/2018/07/31/1968197591/

Google Earth API
https://developers.google.com/earth-engine/

#Marketing/Retail Data Hackathon

Springleaf Marketing Response ダイレクトメールの反応分析 150MB
https://www.kaggle.com/c/springleaf-marketing-response/kernels

Coupon Purchase Prediction リクルートのポンパレのデータ
https://www.kaggle.com/c/coupon-purchase-prediction

Airbnb New User Bookings Airbnbの予約データ分析
Where will a new guest book their first travel experience?
https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings

Rossmann Store Sales 小売店売上予測
https://www.kaggle.com/c/rossmann-store-sales/data

Home Depot Product Search Relevance
Predict the relevance of search results on homedepot.com
https://www.kaggle.com/c/home-depot-product-search-relevance

Acquire Valued Shoppers Challenge
Predict which shoppers will become repeat buyers
https://www.kaggle.com/c/acquire-valued-shoppers-challenge

Getting real about fake news
https://www.kaggle.com/mrisdal/fake-news

Starbucks Locations Worldwide
https://www.kaggle.com/starbucks/store-locations

Retail rocket recommendation system dataset
https://www.kaggle.com/retailrocket/ecommerce-dataset

Grupo Bimbo Inventory Demand 食品の売上最適化と返品の最小化 (Trainデータ3GBデータあり)
Maximize sales and minimize returns of bakery goods
https://www.kaggle.com/c/grupo-bimbo-inventory-demand

Innerwear Data from Victoria's Secret
https://www.kaggle.com/PromptCloudHQ/innerwear-data-from-victorias-secret-and-others

#NLP(自然言語処理) Data Hackathon

自然言語処理チュートリアル =>
https://qiita.com/daisuke-team-ai/items/d2e18f07a08d9b4cb783

###NLPの代表的なアプローチまとめ + コード (Kaggle Kernel) オススメ
https://www.kaggle.com/abhishek/approaching-almost-any-nlp-problem-on-kaggle

NLP Data;

Shinzo Abe Twitter Data(安倍首相のTwitterデータ)
https://www.kaggle.com/team-ai/shinzo-abe-japanese-prime-minister-twitter-nlp/version/1

World News on Reddit
掲示板上のニュースデータ解析
https://www.kaggle.com/rootuser/worldnews-on-reddit

South Park Dialogue
アニメ作品台本のセリフデータから話者を特定
https://www.kaggle.com/tovarischsukhov/southparklines

Deep NLP
Chatbotと履歴書データの解析
https://www.kaggle.com/samdeeplearning/deepnlp

Python Questions from StackOverFlow
プログラミングQ&AサイトのPythonに関する質問分析
https://www.kaggle.com/stackoverflow/pythonquestions

Japanese English Bilingual Corpus(日本語と英語のWikipediaコーパス)
https://www.kaggle.com/team-ai/japaneseenglish-bilingual-corpus

Japanese lemma frequency 日本語の頻出語15000リスト
A list of the 15,000 most common word forms in Japanese
https://www.kaggle.com/rtatman/japanese-lemma-frequency

Japanese Whisky Review Dataset(英語ですが日本のウイスキーのレビュー)
1,000+ Reviews of Japanese Whisky
https://www.kaggle.com/koki25ando/japanese-whisky-review

(上級者向け) Q&AサイトQuoraの類似質問を分類するコンペ
https://www.kaggle.com/c/quora-question-pairs

番外;トランプ大統領のTwitter AI => 話しかけると直ぐに答えてくれます!
https://twitter.com/TrumpSidekik
スクリーンショット 2018-10-10 20.51.26.png

#HR Data

Kaggle ML and Data Science Survey, 2017 データ分析業界全体の分析
A big picture view of the state of data science and machine learning.
https://www.kaggle.com/kaggle/kaggle-survey-2017

U.S. Incomes by Occupation and Gender 性別による収入格差の分析
Analyze gender gap and differences in industry's incomes
https://www.kaggle.com/jonavery/incomes-by-career-and-gender

Daily Happiness & Employee Turnover 業績と社員幸福度の相関性分析
Is There a Relationship Between Employee Happiness and Job Turnover?
https://www.kaggle.com/harriken/employeeturnover

IBM HR Analytics Employee Attrition & Performance IBMの離職率分析
Predict attrition of your valuable employees
https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset

Human Resources Analytics なぜ優秀な社員が離職するのか?という分析
Why are our best and most experienced employees leaving prematurely?
https://www.kaggle.com/ludobenistant/hr-analytics

2016 New Coder Survey 新人ソフトウエアエンジニア15000人分の属性データ
A survey of 15,000+ people who are new to software development
https://www.kaggle.com/freecodecamp/2016-new-coder-survey-

U.S. Incomes by Occupation and Gender 職業と性別による所得格差分析
Analyze gender gap and differences in industry's incomes
https://www.kaggle.com/jonavery/incomes-by-career-and-gender

#参照すると良い記事

Pythonでk-db.comから時系列データを取得する

#オススメデータセット

#英語も素晴らしい情報が揃っています
###Google Translate for Chromeを入れれば一発で自動翻訳できます!

Quoraに時系列予測のノウハウがいっぱい載っています(FinTech向け);
https://www.google.co.jp/search?q=how+to+predict+time+series+quora&rlz=1C5CHFA_enJP747JP747&oq=how+to+predict+time+series+quora&aqs=chrome..69i57.8273j0j7&sourceid=chrome&ie=UTF-8

#数理的アプローチ一覧
(保存版:ど素人向け) 機械学習/データ分析 読むべき記事リスト by Team AI

#Pythonのパッケージ

##Pandas

Official Site
http://pandas.pydata.org/
ゆるふわPandasチートシート

これだけ覚えておけばなんとかなるPandas

##Seaborn

Official Site
https://seaborn.pydata.org/

pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る その1

pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る その2

matplotlib と Seaborn の軸の日本語設定


= Event in Jan 2024 , Team AI comes back as "Kiara U" =

Screenshot 2024-01-12 at 7.38.46.png

417124680_10228016761117385_7744550118763802343_n.jpg
417139848_10228016760957381_4840831102420482021_n.jpg

Screenshot 2024-01-12 at 7.45.54.png

Data U event on 13 Jan (Sat)

——

Venue :

——

(Today’s step 1-2-3)

13:00-13:30 - open the room and we welcome the participants
13:30- 13:50
0 : warm intro - hey we are Rizwan and Dave - call us R&D!! You do warm intro too.
13:50-14:10
1: Get to know how to use kaggle! Welcome to open data science. Download CSV + do analysis + try to make some value with your deep insight.
14:10 - 15:00
2: today we have prepared some light weight data (should be less than 1MB = easy to analyze) You can group up the team of 4-5 ppl - for finance (=make money!) , medical (=save life!) , NASA (= discover the mystery of universe!)
15:00- 15:10 break
15:10 - 15:30
3: Continue the work! Don’t sleep. Everyone should help each other.
15:30-15:50
4 : Each team do 5min pitch about good / bad / possible next step out of your data-hackathon
15:50-16:00
5: Closing

——
The data we prepared
Source - you can use google translate to read this page
https://qiita.com/daisuke-team-ai/items/f8e3275f1d3ca7e9bfcd

——

(Finance data)

Bitcoin Price Prediction (LightWeight CSV)
https://www.kaggle.com/team-ai/bitcoin-price-prediction

Foreign Exchange (FX) Prediction - USD/JPY
https://www.kaggle.com/team-ai/foreign-exchange-fx-prediction-usdjpy

Foreign Exchange(FX) Prediction - EUR/USD
https://www.kaggle.com/meehau/EURUSD/kernels

StockPrice and News
ニュースと株価の相関分析(6MB)
https://www.kaggle.com/aaron7sun/stocknews
Loan Data for risk analysis
貸付リスク計算データ (6KB 軽め)
https://www.kaggle.com/zhijinzhai/loandata

Below are free to use - you can check nintendo, apple stock price for free

Yahoo finance
https://finance.yahoo.com

Google finance
https://support.google.com/docs/answer/3093281?hl=en

(Medical data )

Synchronized brainwave dataset 脳波
https://www.kaggle.com/berkeley-biosense/synchronized-brainwave-dataset
Breast Cancer Wisconsin (Diagnostic) Data Set 乳がん
https://www.kaggle.com/uciml/breast-cancer-wisconsin-data
Hospital General Information 病院
https://www.kaggle.com/cms/hospital-general-information
Zika Virus Epidemic ジカ熱
https://www.kaggle.com/cdc/zika-virus-epidemic
Cervical Cancer Risk Classification 子宮頸がん
https://www.kaggle.com/loveall/cervical-cancer-risk-classification
Medical Appointment No Shows 患者のドタキャン分析
https://www.kaggle.com/joniarroba/noshowappointments
Mental Health in Tech Survey テック業界のメンタルヘルス
https://www.kaggle.com/osmi/mental-health-in-tech-survey

(Space data )

Exoplanet Hunting in Deep Space 惑星探査データ
https://www.kaggle.com/keplersmachines/kepler-labelled-time-series-data
Solar Radiation Prediction 太陽の放射線データ
https://www.kaggle.com/dronio/SolarEnergy
Climate Change: Earth Surface Temperature Data 地球の表面温度データ
https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data
Meteorite Landings 隕石の衝突データ
https://www.kaggle.com/nasa/meteorite-landings
UFO Sightings UFO発見データ
https://www.kaggle.com/NUFORC/ufo-sightings
Open Exoplanet Catalogue 太陽系外惑星データ
https://www.kaggle.com/mrisdal/open-exoplanet-catalogue
Kepler Exoplanet Search Results 太陽系外惑星データ2
https://www.kaggle.com/nasa/kepler-exoplanet-search-results/kernels
NASAの太陽系外惑星探査ケプラー宇宙望遠鏡ミッション詳細
https://japanese.engadget.com/2018/03/15/9-4500/

(Others )

Anything you want! Pick something small in Kaggle.com or Google Data Set Serach

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
221